7 korakov za učenje podatkovnega rudarjenja in podatkovnih znanosti

Avtor: Eugene Taylor
Datum Ustvarjanja: 12 Avgust 2021
Datum Posodobitve: 22 Junij 2024
Anonim
Step by step roadmap to learn data science in 6 months |  Complete data science roadmap
Video.: Step by step roadmap to learn data science in 6 months | Complete data science roadmap

Vsebina


Vir: Paul Fleet / Dreamstime.com

Odvzem:

Podatkovne znanosti se najbolje naučimo s početjem, vendar je pomemben tudi temelj statistike in strojnega učenja.

Pogosto me sprašujejo, kako se naučiti rudarjenja podatkov in znanosti o podatkih. Tu je moj povzetek.

Najprimerneje se naučite rudarjenja podatkov in znanosti o podatkih, zato takoj začnite analizirati podatke! Ne pozabite pa se naučiti teorije, saj potrebujete dobro statistično in strojno učno podlago, da boste razumeli, kaj počnete, in v hrupu velikih podatkov našli prave izvirne vrednosti.

Tu je sedem korakov za učenje rudarjenja podatkov in znanosti o podatkih. Čeprav so oštevilčene, jih lahko naredite vzporedno ali v drugem vrstnem redu.

  1. Jeziki: Naučite se R, Python in SQL
  2. Orodja: Naučite se uporabljati orodja za rudarjenje podatkov in vizualizacijo
  3. knjige: preberite uvodne knjige, da boste razumeli osnove
  4. Izobraževanje: gledajte spletne seminarje, tečaje in razmislite o certifikatu ali diplomi znanosti znanosti (preberite več v članku Ben Loricas Kako negovati podatkovnega znanstvenika.)
  5. Podatki: Preverite razpoložljive vire podatkov in tam poiščite nekaj
  6. Tekmovanja: Sodelujte v tekmovanjih za rudarjenje podatkov
  7. Vzajemno komunicirajte z drugimi znanstveniki, prek družbenih omrežij, skupin in srečanj

V tem članku uporabljam izmenjavo podatkov in znanost o podatkih. Oglejte si mojo predstavitev Pregled industrije industrije Analytics, kjer si ogledam razvoj in priljubljenost različnih izrazov, kot so statistika, odkrivanje znanja, rudarjenje podatkov, napovedna analitika, znanost podatkov in veliki podatki.


1. Učenje jezikov

Nedavna anketa KDnuggets je pokazala, da so najbolj priljubljeni jeziki za rudarjenje podatkov R, Python in SQL. Za vsakega obstaja veliko virov, na primer:

  • Brezplačna e-knjiga o podatkih Science with R
  • Uvod v Python za znanost o podatkih
  • Python za analizo podatkov: Agile Tools for Real World Data
  • Nepogrešljiv Python: Sourcing of Data Science
  • Šole W3 za učenje SQL

2. Orodja: Data Mining, Data Science in Visualization Software

Obstaja veliko orodij za rudarjenje podatkov za različne naloge, vendar je najbolje, da se naučite uporabljati paket podatkov za rudarjenje podatkov, ki podpira celoten postopek analize podatkov. Začnete lahko z odprtokodnimi (brezplačnimi) orodji, kot so KNIME, RapidMiner in Weka.

Vendar pa morate za številna analitična opravila poznati SAS, ki je vodilno komercialno orodje in se pogosto uporablja. Ostala priljubljena programska oprema za analitiko in rudarjenje podatkov vključuje MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler in Rattle.


Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje

Ne morete izboljšati svojih programskih veščin, kadar nikogar ne skrbi za kakovost programske opreme.

Vizualizacija je bistven del vsake analize podatkov. Naučite se uporabljati Microsoft Excel (dobro za številne preprostejše naloge), R grafiko (predvsem ggplot2) in tudi Tableau - odličen paket za vizualizacijo. Ostala dobra orodja za vizualizacijo vključujejo TIBCO Spotfire in Miner3D.

3. knjige

Na voljo je veliko rudarjenja podatkov in znanstvenih knjig, vendar jih lahko preverite:

  • Rudarjenje in analiza podatkov: Temeljni pojmi in algoritmi, brezplačen prenos PDF (osnutek), avtor Mohammed Zaki in Wagner Meira Jr.
  • Podatkovno rudarjenje: praktična orodja in tehnike strojnega učenja avtorjev Weka avtorjev Ian Witten, Eibe Frank in Mark Hall ter obširna uporaba Weka v primerih
  • Elementi statističnega učenja, pridobivanje podatkov, sklepanje in napovedovanje, Trevor Hastie, Robert Tibshirani, Jerome Friedman. Odličen uvod za matematično usmerjene
  • LIONbook: Učenje in inteligentna optimizacija, Roberto Battiti in Mauro Brunato, prosto dostopna na spletu, poglavje za poglavjem
  • Rudarstvo z množičnimi zbirkami podatkov A. Rajaraman, J. Ullman
  • Knjiga elektronske statistike StatSoft (brezplačna) vključuje številne teme rudarjenja podatkov

4. Izobraževanje: Webinarji, tečaji, spričevala in diplome

Začnete lahko z ogledom številnih brezplačnih spletnih seminarjev in spletnih oddaj o najnovejših temah analitike, velikih podatkov, rudarjenja podatkov in znanosti o podatkih.

Obstaja tudi veliko spletnih tečajev, kratkih in dolgih, od katerih so mnogi brezplačni. (Oglejte si spletni izobraževalni imenik KDnuggets.)

Preverite zlasti te tečaje:

  • Strojno učenje pri Courseri, ki ga predava Andrew Ng
  • Učenje iz podatkov na edX, ki ga predava profesor Caltech Yaser Abu-Mostafa
  • Odprite spletni tečaj uporabnih podatkov iz Syracuse iSchool
  • Data Mining z Weka, brezplačen spletni tečaj
  • Oglejte si tudi brezplačne spletne diapozitive iz mojega tečaja podatkovnega rudarjenja, semestrskega uvodnega tečaja izkopavanja podatkov

Nazadnje razmislite o pridobitvi certifikatov za pridobivanje podatkov in znanosti o podatkih ali višjih stopnjah, kot je magistrski študij podatkov.

5. Podatki

Za analizo boste potrebovali podatke - glejte KDnuggets imenik nabora podatkov za rudarjenje podatkov, vključno z:

  • Državna, zvezna, državna, mestna, lokalna in javna spletna mesta in portali
  • Podatkovni API-ji, vozlišča, tržnice, platforme, portali in iskalniki
  • Brezplačne javne zbirke podatkov

6. Tekmovanja

Spet se boste najbolje naučili s početjem, zato sodelujte v tekmovanjih v Kaggleju. Začnite z tekmovanji za začetnike, kot je napovedovanje preživetja Titanic z uporabo strojnega učenja.

7. Interakcija: sestanki, skupine in družabna omrežja

Pridružite se lahko številnim skupinam vrstnikov. Oglejte si 30 najboljših skupin LinkedIn za analitiko, velike podatke, rudarjenje podatkov in znanost o podatkih.

AnalyticBridge je aktivna skupnost za analitiko in znanost o podatkih.

Udeležite se lahko številnih srečanj in konferenc o analitiki, velikih podatkih, pridobivanju podatkov, znanosti o podatkih in odkrivanju znanja.

Razmislite tudi o pridružitvi ACM SIGKDD, ki organizira letno konferenco KDD - vodilno raziskovalno konferenco na tem področju.

Ta članek je trden s strani KDNuggets.com. Uporabljen je bil z dovoljenjem avtorja.