Ali je lahko v velikih podatkih kdaj preveč podatkov?

Video.: Ta črka v imenu nosi denar in blaginjo. Prva črka v imenu vpliva na značaj in usodo osebe

Vsebina

V:

A:

Odgovor na vprašanje je odmeven DA. V velikem podatkovnem projektu je absolutno lahko preveč podatkov.

Obstajajo številni načini, kako se to lahko zgodi, in različni razlogi, zakaj morajo strokovnjaki omejiti in kuratirati podatke na poljuben način, da bi dosegli prave rezultate. (Preberite 10 velikih mitov o velikih podatkih.)

Na splošno strokovnjaki govorijo o razlikovanju "signala" od "hrupa" v modelu. Z drugimi besedami, v morju velikih podatkov postanejo ustrezni vpogledni podatki težko ciljni. V nekaterih primerih iščete iglo v senu.

Recimo, da podjetje poskuša uporabiti velike podatke za ustvarjanje določenih vpogledov v segmentu kupcev in njihovih nakupov v določenem časovnem okviru. (Preberite, kaj počnejo veliki podatki?)

Uporaba velike količine podatkovnih sredstev lahko povzroči vnos naključnih podatkov, ki niso pomembni, ali pa celo povzroči pristranskost, ki podatke skenira v eno ali drugo smer.

Prav tako močno upočasni postopek, saj se morajo računalniški sistemi spopadati z večjimi in večjimi nabori podatkov.

V toliko različnih projektih je zelo pomembno, da inženirji podatkov obdelajo podatke v omejene in posebne nabore podatkov - v zgornjem primeru bi bili to le podatki za tisti segment odjemalcev, ki se preučujejo, le podatki za tisti čas okvir, ki se preučuje, in pristop, ki odstrani dodatne identifikatorje ali osnovne informacije, ki lahko zmedejo stvari ali upočasnijo sisteme. (Vloga ReadJob: Data Engineer.)

Za več si poglejmo, kako to deluje na meji strojnega učenja. (Preberite Strojno učenje 101.)

Strokovnjaki za strojno učenje govorijo o nečem, imenovanem "prekomerno opremljanje", kjer preveč zapleten model vodi do manj učinkovitih rezultatov, ko je program strojnega učenja ohlapen na novih proizvodnih podatkih.

Prekomerno opremljanje se zgodi, kadar se zapleten niz podatkovnih točk preveč ujema z začetnim naborom za usposabljanje in ne omogoča, da se program enostavno prilagodi novim podatkom.

Zdaj tehnično gledano prekomerno opremljanje ne povzroča obstoj preveč vzorcev podatkov, temveč kronacija preveč podatkovnih točk. Lahko pa trdite, da je lahko preveč podatkov tudi dejavnik, ki prispeva k tej vrsti težav. Ukvarjanje s prekletstvom dimenzionalnosti vključuje nekatere iste tehnike, ki so jih izvajali v prejšnjih velikih projektih s podatki, kot so jih strokovnjaki poskušali natančno določiti, s čim hranijo IT sisteme.

Bistvo je, da lahko veliki podatki podjetjem zelo koristijo ali pa postanejo velik izziv. En vidik tega je, ali ima podjetje prave podatke. Strokovnjaki vedo, da ni priporočljivo, da vsa podatkovna sredstva preprosto odlagajo v košaro in na ta način pridejo do vpogleda - v novih izvornih in izpopolnjenih podatkovnih sistemih v oblaku si prizadevajo za nadzor in upravljanje in obdelavo podatkov, da bi bili bolj natančni in učinkovita uporaba podatkovnih sredstev.