6 velikih mitov o upravljanju velikih podatkov

Video.: Thomas Piketty: New thoughts on capital in the twenty-first century

Vsebina

Mit: Vsi smo pred nami pri sprejemanju velikih podatkov.
Mit: Imamo toliko podatkov; ne rabimo skrbeti za vsako majhno napako v podatkih.
Mit: Velika podatkovna tehnologija bo odpravila potrebo po integraciji podatkov.
Mit: Uporaba podatkovnega skladišča za napredno analitiko je nesmiselna.
Mit: Podatkovna jezera bodo nadomestila podatkovno skladišče.
Velika podatkovna dela - nove metode manipulacije podatkov morda ne

Vir: Dwnld777 / Dreamstime.com

Odvzem:

Veliki podatki so velika podjetja, vendar le, če se pravilno uporabljajo.

Še v maju 2014 je Forrester Research izdal dve poročili, v katerih je sklepal o nekaterih hype okoli velikih podatkov. Raziskovalno podjetje je anketiralo več kot 250 voditeljev trženja in poslovnega razvoja. Kot trdijo avtorji poročil, je velika retorika podatkov vseskozi na visoki ravni, zato tehnološki prodajalci izdelujejo izdelke, ki se zdijo neverjetne trditve.

Gartner se strinja s podjetjem Forrester Research; velik hype obdaja velike podatke. V poročilu iz septembra 2014 Gartner razgrne pet največjih mitov o podatkih in Gartnerjevi analitiki ponujajo svoje mnenje o tem, kaj je narobe razumljeno o velikih podatkih in njihovi manipulaciji. Kaj so torej veliki podatki največji miti? Poglejmo.

Mit: Vsi smo pred nami pri sprejemanju velikih podatkov.

Gartner pravi, da je zanimanje za velike podatke ves čas zelo veliko. Kljub temu ima slabih 13 odstotkov vprašanih delovnih sistemov. Razlog: večina podjetij še ni ugotovila, kako pridobiti kakršno koli vrednost iz velikih shramb podatkov. Tu je Gartnerjeva raziskava bolj optimistična kot poročilo Forresterja, ki je ugotovilo, da je le 9 odstotkov udeležencev ankete povedalo, da nameravajo v prihodnjem letu uvesti tehnologije velikih podatkov. (Veliki podatki lahko ponujajo veliko. Več o tem v 5 problemih iz resničnega sveta Veliki podatki se lahko rešijo.)

Mit: Imamo toliko podatkov; ne rabimo skrbeti za vsako majhno napako v podatkih.

Gartner je zaskrbljen zaradi domiselne, ki jo imamo ljudje: "Toliko imamo, tisto, kar je slabo, ne bo pomembno." Ted Friedman, podpredsednik in ugledni analitik pri Gartnerju, meni, da je to napačen pogled na situacijo.

"Čeprav ima v resnici vsaka posamezna pomanjkljivost veliko manjši vpliv na celoten nabor podatkov kot takrat, ko je bilo manj podatkov, je več pomanjkljivosti kot prej, ker je več podatkov," je dejal Friedman. "Zato splošni vpliv nekakovostnih podatkov na celoten nabor podatkov ostaja enak."

Friedman dodaja še en razlog za zaskrbljenost. Zajem velikih podatkov pogosto vključuje podatke zunaj podjetja, ki so torej neznane strukture in izvora. To povečuje možnost napak.

Mit: Velika podatkovna tehnologija bo odpravila potrebo po integraciji podatkov.

Obstajata dve ključni strategiji analize podatkov, ki se lahko uporabita za velike podatke: "shema ob pisanju" ali "shema ob branju". Do nedavnega je bila edina metoda uporabljena shema za pisanje. Shema on read je trenutna norost upravljanja z bazami podatkov. Za razliko od sheme pri pisanju, ki zahteva strukturiran format, se podatki naložijo v zbirke podatkov, ki jih berejo v shemi, v neobdelani obliki. Nato razvijalci - z nestrukturiranimi platformami baz podatkov, kot je Hadoop - ločijo različne podatke v uporabno obliko. Shema za branje ima očitne prednosti, vendar, kot omenja Gartner, se mora v nekem trenutku zgoditi integracija podatkov.

Mit: Uporaba podatkovnega skladišča za napredno analitiko je nesmiselna.

Poraba časa za ustvarjanje podatkovnega skladišča se zdi mnogim upravljavcem informacij nesmiselna, zlasti kadar so na novo zajeti podatki drugačni od tistih v skladišču podatkov. Vendar Gartner ponovno opozarja, da bo tudi napredna analitika podatkov uporabila skladišča podatkov in nove podatke, kar pomeni, da morajo integratorji podatkov:

Izboljšajte nove vrste podatkov, da bodo primerni za analizo
Odločite se, kateri podatki so ustrezni, in raven kakovosti podatkov
Določite, kako združiti podatke
Razumejte, da se lahko izboljšava podatkov zgodi tudi v drugih krajih, razen v skladišču podatkov

Mit: Podatkovna jezera bodo nadomestila podatkovno skladišče.

Podatkovna jezera so skladišča različnih podatkov v nasprotju s skladišči podatkov, v katerih so podatki strukturirani. Ustvarjanje podatkovnega jezera zahteva malo vnaprej (ni treba oblikovati podatkov) v primerjavi s podatkovnimi skladišči, zato so podatkovna jezera zanimiva.

Gartner poudarja, da je smisel imeti podatke za manipuliranje z zajetimi podatki za informirano odločanje. Poleg tega je uporaba (nekoliko nedokazanih) podatkovnih jezer za lažje odločanje problematična.

"Skladišča podatkov že imajo zmogljivosti za podporo najrazličnejšim uporabnikom v celotni organizaciji," je dejal Nick Heudecker, direktor raziskav pri Gartnerju. "Vodje za upravljanje informacij ne smejo čakati, da se podatki do konca pojavijo." (Več o sprejemanju velikih podatkov o 7 stvareh, ki jih morate vedeti o velikih podatkih pred sprejetjem.)

Velika podatkovna dela - nove metode manipulacije podatkov morda ne

Razlog, ko je Gartner dejal, da so "miti o največjih podatkih" namesto "miti o velikih podatkih", postane jasen, ko je prebral poročilo. Gartner ne zajema velikih podatkov. Gartner je naklonjen tistim, ki menijo, da so novejše metode upravljanja velikih podatkov pripravljene na "prime time".