Katalogi podatkov in zorenje trga strojnega učenja

Vsebina

The Infonomics Imperative
Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje
Kaj lahko katalogi podatkov naredijo za podjetja
Dodajanje v strojnem učenju
Kako izbrati

Vir: Nmedia / Dreamstime.com

Odvzem:

Trg MLDC raste in podjetja, ki želijo učinkovito izkoristiti velike podatke s strojnim učenjem, se morajo zavedati glavnih imen na tem področju in njihove posamezne uvrstitve.

To je doba velikih podatkov. Informacije smo preplavljene in podjetja se jim zdijo izziv upravljati in iz njih pridobivati vrednost.

Današnji pretok velikih podatkov ne pomeni le obsega, raznolikosti in hitrosti, temveč tudi kompleksnost. Kot je SAS opredelil v zgodovini velikih podatkov in trenutnih premislekih, je to dejavnik pretokov "iz več virov, kar otežuje povezovanje, usklajevanje, čiščenje in preoblikovanje podatkov po sistemih." (Želite izvedeti več o velikih podatkih? Oglejte si (velike) podatke Velika prihodnost.)

Iskanje dragocenega vpogleda ni vprašanje preprosto nabiranja čim več podatkov, temveč iskanja pravih podatkov. Skozi vse to je nemogoče delati z ročnimi procesi. Zato se vse več podjetij "obrača na kataloge podatkov, da bi demokratizirala dostop do podatkov, plemenskim znanjem podatkov omogočila kuracijo informacij, uporabo podatkovnih pravilnikov in hitro aktivirala vse podatke za poslovno vrednost."

Tu se v sliko vpišejo katalogi podatkov (včasih tudi znani kot katalogi informacij). Kot je opredeljeno tukaj, omogočajo "uporabnikom, da raziščejo potrebne vire podatkov in razumejo raziskane vire podatkov ter hkrati pomagajo organizacijam, da dosežejo večjo vrednost od svojih sedanjih naložb." Eden od načinov za to je omogočanje veliko večjega dostopa do podatkov med različnimi vrstami uporabnikov, ki jih lahko uporabijo ali prispevajo k njim.

The Infonomics Imperative

Ko je konec leta 2017 izrazito povečal povpraševanje po katalogu podatkov, jih je Gartner poimenoval "nova črna". Postali so prepoznani kot hitra in ekonomična rešitev "za popis in razvrščanje organizacij, ki vse bolj distribuirajo in neorganizirajo podatkovna sredstva, in preslikajo svoje verige za dobavo informacij." Potreba po tem se je pojavila zaradi naraščanja "infomonike", ki zahteva, da se pri sledenju informacij uporabi enaka natančnost kot pri upravljanju drugih poslovnih sredstev. (Za več informacij o dobavnih verigah glejte, kako lahko strojno učenje izboljša učinkovitost oskrbne verige.)

Gartnerji prevzamejo klopi s katalogom podatkov Forrester Wave ™: Katalog podatkov strojnega učenja, drugo četrtletje 2018. Več kot polovica udeležencev raziskave v tem poročilu je dejala, da načrtujejo izgradnjo njihovega kataloga podatkov. Verjetno jih je v veliki meri motiviralo dejstvo, da je imelo v svoji organizaciji vsaj sedem podatkovnih jezer. Kot pojasnjuje Gartner za kataloge podatkov, so katalogi podatkov še posebej koristni za izvleček "vsebine, pomena in vrednosti podatkov", ki je običajno v nerazvrščeni obliki v podatkovnem jezeru.

Forrester poroča, da je več kot tretjina nosilcev odločanja o podatkih in analitiki v letu 2017 obravnavala 1.000TB ali več podatkov, znesek, o katerem so leto prej poročali le med 10 in 14 odstotki. Upravljanje podatkov v tej lestvici je vse večji izziv ali natančneje dva izziva:

"1) združevanje obstoječih poslovnih procesov z izvornimi podatki za njihovo analizo in izvajanje vpogleda in 2) pridobivanje, zbiranje, upravljanje in upravljanje podatkov v času rasti."

Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje

Ne morete izboljšati svojih programskih veščin, kadar nikogar ne skrbi za kakovost programske opreme.

Kaj lahko katalogi podatkov naredijo za podjetja

Gartner določa posebne načine, kako katalogi podatkov lahko izboljšajo pretok informacij in produktivnost organizacij:

Zbiranje in sporočanje posodobljenega seznama informacijskih sredstev, ki je na voljo organizaciji.
Oblikovanje skupnega slovarja poslovnih izrazov, ki določa pomensko razlago in pomen podatkov organizacij, s čimer se zagotovijo sredstva za posredovanje in odpravljanje dokončnih neskladnosti.
Omogočanje dinamičnega in prilagodljivega okolja za sodelovanje, ki podjetnim in IT kolegom omogoča komentiranje, dokumentiranje in skupno rabo podatkov.
Zagotavljanje preglednosti uporabe podatkov z analizo rodov in vplivov.
Spremljanje, revizija in sledenje podatkov v podporo procesom upravljanja informacij.
Zajem metapodatkov za izboljšanje notranje analize uporabe in ponovne uporabe, optimizacijo poizvedb in potrjevanje podatkov.
Izdelava informacij v okviru poslovne uporabe z zajemanjem, sporočanjem in analizo, kakšni podatki obstajajo, od kod izvirajo, za kaj se uporabljajo, zakaj so potrebni, kako se pretakajo med procesi in sistemi, kdo je zanj odgovoren, kaj pomeni in kakšno vrednost ima.

Gartnerjevo poročilo pravi, da so podatki pravilno identificirani in dostopni ključnim ljudem v organizaciji ne le zato, da bi našli način, kako "zaslužiti podatkovna sredstva za digitalne poslovne rezultate", temveč za skladnost s predpisi, ne glede na to, ali gre za industrijo oz. poseben, kot je Zakon o prenosljivosti zdravstvenega zavarovanja in odgovornosti (HIPAA), ali bolj splošne narave, kot je Splošna uredba o varstvu podatkov (GDPR).

Dodajanje v strojnem učenju

A brez pomanjkljivosti ni nič. V katalogih podatkov je težava počasen in mučen postopek, ki je vključen v ročno izdelavo le-teh z vsemi metapodatki, ki jih je treba uvesti. Tukaj prihaja komponenta strojnega učenja.

Podatkovni katalogi, ki jih je ocenil Forrester, se imenujejo MLDC, ker izkoriščajo moč strojnega učenja, ki je ena od komponent AI. Kot je razložil blog Podium Data, to omogoča, da "zgradite obstojno shranjevanje metapodatkov in nato uporabite ML / AI, da bi izvadili in izpostavili potencialno koristne vpoglede okoli osnovnih sredstev podatkov."

Kako izbrati

Za pomoč organizacijam pri oceni, katera podjetja naj izberejo, je Forrester uporabil 29 točk ocenjevanja za najboljših 12 MLDC. Vodje na tem trgu so opredelili kot: IBM, Relito, Unifi Software, Alation in Collibra. Močni izvajalci so bili Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics in Cloudera. Hortonworks stoji sam v rangu "kandidat".

Vendar ne bi smeli iti sami po skupni uvrstitvi. Poročilo razčleni posebne prednosti in slabosti vsakega posebej. Torej, če je določena značilnost, kot so raziskave in razvoj izrednega pomena za organizacijo, lahko Hortonworks za ta vidik šteje kot enakovrednost IBM-a in Colilbre, ker si ti trije delijo najvišjo oceno petih za to kakovost, ki je bila dve točki boljši od Alation in Coloudera in štiri točke boljši od Cambridge Semantika.

V skladu s tem poročilo Forrester tistim, ki njegovo poročilo uporabljajo za vodenje, svetuje, naj ne štejejo, da je najbolje uvrščena družba najboljša izbira za vse. Naj bodo pozorni na razčlenitev ocene, da bi ugotovili, kaj ustreza njihovim posebnim zahtevam.