4 miti o zagonu projekta strojnega učenja

Vsebina

Mit 1: Več podatkov je vedno bolje
Mit # 2: Podatki, ki jih imamo, so dovolj dobri
Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje
Mit 3: Za nas je še prezgodaj!
Mit # 4: Strojno učenje je vedno isto
Mit 5: Strojno učenje deluje samo s skrbno nabranimi podatki

Vir: monsitj / iStockphoto

Odvzem:

Spoznajte te mite o strojnem učenju, da se bolje usmerite v usvajanje podjetij.

Ne gre jemati rahlo - začeti s projektom strojnega učenja je lahko zastrašujoč postopek za vodstvene delavce, ki želijo izkoristiti ta trend IT, vendar pa morda nimajo lastnega znanja, da bi resnično razumeli, kaj vse uvršča stroj učni projekti označijo.

Tu bomo govorili o nekaterih osnovnih napačnih predstavah, ki vplivajo na to, kako podjetja razvijajo tehnologije strojnega učenja na hitro spreminjajočem se trgu. (Podatkovna znanost je drugo področje, ki ga podjetja izvajajo, toda kako se razlikuje od ML? Ugotovite v Data Science ali Machine Learning? Heres Kako ugotoviti razliko.)

Mit 1: Več podatkov je vedno bolje

To je res eden največjih mitov strojnega učenja. Ljudje mislijo, da več podatkov pomeni večjo sposobnost prilagajanja dejanskih spoznanj. V nekaterih primerih imajo prav, bolj pogosto pa je lahko obratno.

Več podatkov je boljše le, če ustrezni podatki dopolnjujejo celotno sliko. Podatki morajo ustrezati modelu strojnega učenja ali pa lahko program trpi zaradi nečesa, imenovanega "prekomerno opremljanje", kjer se rezultati strojnega učenja ne prikažejo tako, kot bi morali.

"Vzrok za slabe rezultate pri strojnem učenju je prekomerno prilagajanje ali premajhnost podatkov," piše Jason Brownlee iz Strojstvenega učenja.

V statistiki se prilagajanje nanaša na to, kako dobro približate ciljni funkciji. To je dobro izrazoslovje, ki ga je mogoče uporabiti pri strojnem učenju, saj poskušajo nadzorovani algoritmi strojnega učenja približati neznano osnovno funkcijo preslikave izhodnih spremenljivk glede na vhodne spremenljivke. Statistični podatki pogosto opisujejo primernost prileganja, ki se nanaša na ukrepe, ki se uporabljajo za oceno, kako se približek funkcije ujema s ciljno funkcijo.

Preprosto povedano, zunanji podatki lahko povzročijo resne težave. Preden začnejo projekt strojnega učenja delovati, morajo vodstveni delavci in druge zainteresirane strani premisliti in ugotoviti, kakšne vrste podatkov so, ki bodo prava podlaga za napredek.

Mit # 2: Podatki, ki jih imamo, so dovolj dobri

Ponovno procesi strojnega učenja delujejo na zelo natančnih modelih podatkov. Podatki niso dovolj dobri, razen če so jasno usmerjeni in zbrani ali ovrednoteni, da bi upoštevali stvari, kot sta pristranskost in odstopanje.

Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje

Ne morete izboljšati svojih programskih veščin, kadar nikogar ne skrbi za kakovost programske opreme.

Ena stvar, o kateri v svetu strojnega učenja veliko slišite, je nenadzorovana pristranskost. Strojno učenje sprejema naše človeške pristranskosti in jih razširja tako, da zbere podatke, ki jih program prinese v potencialno ekstremne rezultate.

To pomeni, da je treba podatke nadomestiti, da bi nadoknadili to težnjo.

Mit 3: Za nas je še prezgodaj!

Nekatera podjetja skrbijo, da je še prezgodaj, da bi se preusmerili v strojno učenje. Če pa se pogovarjate z veliko inovatorji in podjetniki, bodo rekli, da je ravno to čas, da vstopite v pritličje.

Ne glede na to, kje je to trend IT, želite biti pred krivino. V angardi je najboljši položaj. Čakanje na popolnost bi lahko dolgoročno stalo podjetje. (Če želite izvedeti več razlogov, zakaj podjetja še niso uvedla ML, glejte 4 zaporedne blokade, ki začasno sprejemajo strojno učenje.)

Mit # 4: Strojno učenje je vedno isto

Zagotovo obstaja širok spekter programov strojnega učenja.

Nekateri od njih v bistvu zmanjkajo enega samega algoritma - matematično so berljivi in pregledni. Inženirji lahko vidijo, kako se podatki nanašajo na podatke, ki prihajajo iz sistema.

Drugi postopki strojnega učenja so veliko bolj izpopolnjeni in jih je težje razumeti. Nevronske mreže, sestavljene iz umetnih nevronov, lahko v bistvu postanejo "črna skrinjica", kjer tudi najboljši inženirji težko spremljajo podatke po sistemu ali pojasnijo, kako algoritmi delujejo.

"Najbolj sposobne tehnologije, in sicer globoke nevronske mreže, so zelo neprozorne in ponujajo le nekaj namigov, kako doseči svoje zaključke," piše Ariel Bleicher iz Science American, ki obravnava vidike te bistvene zagonetke.

Orodja, kot so omrežja za odmev, prevzamejo to zamisel o črni škatli in se z njo zaženejo. Zato je še toliko težje resnično v celoti ugotoviti, kako delujejo ti sistemi.

Mit 5: Strojno učenje deluje samo s skrbno nabranimi podatki

Čeprav zgornja točka glede natančnosti podatkov še vedno drži, dve različni vrsti strojnega učenja delujeta na bistveno drugačni osnovi.

Ena vrsta strojnega učenja, imenovana nadzorovano strojno učenje, se ukvarja z označenimi podatki - podatki o usposabljanju že imajo oznake za opis lastnosti in kategorij.

Druga vrsta strojnega učenja se imenuje nenadzorovano strojno učenje. Ukvarja se z neoznačenimi podatki.

Nenadzorovano strojno učenje jemlje neobdelane podatke, stroj pa jih v bistvu analizira po lastnostih in jih sam razvrsti v kategorije. Pri obeh vrstah strojnega učenja obstaja veliko potenciala, vendar je lažje nastaviti program z označenimi podatki za nadzorovano strojno učenje. Nenadzorovano strojno učenje je za mnoge družbe nekakšne nepregledane vode.

To so nekateri pomisleki, ki jih morda imate, in napačne predstave o strojnem učenju, ki lahko povzročijo težave pri prevzemu podjetja. Upajmo, da je to pomagalo odpraviti nekaj zmede glede projektov strojnega učenja.