Operativni Hadoop v arhitekturi podatkov naslednje generacije

Vsebina

Kaj je arhitektura podatkov naslednje generacije?
Pričakovanja Hadoopa v zvezi z novo arhitekturo nove generacije
Katere vrednosti lahko Hadoop doda arhitekturi podatkov naslednje generacije?
Izboljšana zmogljivost kot arhitektura podatkov podjetja
Razlika med Hadoopom in drugimi tehnologijami
Zaključek

Vir: Romeo1232 / Dreamstime.com

Odvzem:

Hadoop bo ključni igralec v novi arhitekturi podatkov zaradi svoje zmožnosti ravnanja z ogromno količino podatkov.

Hadoopova uporabnost začne presegati obsežno obdelavo podatkov in analitiko, saj industrija od nje zahteva več. Hadoop vztrajno skrbi za različne zahteve, povezane z arhitekturo podatkov podjetja, obenem pa ohranja svoje prvotne prednosti. Seznam tega, kar Hadoop lahko počne in trenutno počne, je precej dolg. Hadoop je zdaj sposoben obdelati ogromno količino transakcijskih delovnih obremenitev, kar je bilo prej pričakovano od tradicionalnih tehnologij. Če gremo naprej, je za Hadoop v prihodnosti veliko možnosti. Na primer, transakcijski sistemi, ki temeljijo na SQL, lahko uporabljajo Hadoop SQL motor, Hadoop pa bo dodal tudi veliko zmogljivosti RDBMS. Lahko rečete, da Hadoop postaja hibrid za obdelavo podatkov in analitične zmožnosti s poslovnimi arhitekturnimi zmožnostmi.

Kaj je arhitektura podatkov naslednje generacije?

Preprosto povedano, arhitektura podatkov naslednje generacije je razvita oblika podatkovne arhitekture. Vse, vključno s podatkovnimi modeli, podatkovnimi politikami, pravili in standardi, ki urejajo način zbiranja, shranjevanja, urejanja, analiziranja ali obdelave, integriranja, uporabe in izdaje, se je razvijalo v arhitekturi podatkov naslednje generacije.

Glavna razlika med prejšnjo arhitekturo podatkov in arhitekturo podatkov naslednje generacije je zmožnost slednjega v realnem času zbirati, shranjevati in obdelovati ogromno količino podatkov, znano tudi kot veliki podatki. Arhitektura izvaja vse te zapletene naloge, ne da bi pri tem ogrožala standarde zasebnosti, varnosti in upravljanja podatkov.

Podatkovna arhitektura naslednje generacije se spopada s številnimi izzivi. Obseg, hitrost in raznolikost velikih podatkov ni enostavno urejati. K temu dodajte zahteve za optimizacijo delovne obremenitve sistema, izboljšanje zmogljivosti, hitrost in natančnost ter zmanjšanje stroškov. Ni treba posebej poudarjati, da predhodni arhitekturi podatkov ni bilo treba obvladovati takšnih zahtev.

Torej, predstavniki informacijske službe in informacijski arhitekti želijo najti rešitev, ki jim pomaga pri doseganju ciljev. Operativni Hadoop se že nekaj časa osredotoča na to temo. Naslednji razdelki bodo obravnavali, kako operativni Hadoop lahko reši težave.

Pričakovanja Hadoopa v zvezi z novo arhitekturo nove generacije

Podjetja so pod vse večjim pritiskom, da bi dosegla boljše rezultate, učinki pa se soočajo s pričakovanji glede tehnologij. Torej od Hadoopa ni več pričakovati, da bo le obdeloval podatke. CIO in CTO želijo od Hadoopa več. Spodaj je seznam pričakovanj Hadoopa. Hadoop je pravzaprav že izpolnil nekaj teh pričakovanj.

Pričakuje se, da bo Hadoop sodeloval s transakcijskimi sistemi, ki temeljijo na SQL in imajo možnosti ustvarjanja, branja, posodabljanja in brisanja. Transakcijski sistemi bodo vplivali na SQL motor. Sistemi bodo imeli tudi popolno skladnost s prenosnim operacijskim sistemskim sistemom (POSIX) in zmožnost obdelave velikih količin transakcij.

Pričakuje se, da bo Hadoop podpiral funkcije, kot so varnostno kopiranje, odpoved napak, obnovitev in obnova po nesreči. Da se bo Hadoop razvil v sistem z zmogljivostmi RDBMS, mora biti združljiv z obstoječimi IT-orodji.

Hadoop že dela na izpolnjevanju pričakovanj, kar je razvidno iz nekaterih dogodkov. Hadoop lahko zagotavlja analizo v realnem času in hitre odzive na podlagi podpore za upravljanje virov, ki jo ponuja YARN. YARN je obsežen in porazdeljen operacijski sistem za velike podatkovne aplikacije, poleg tega, da je upravitelj virov. Znano je, da delujejo tudi drugi dogodki, kot je Apache Storm, razporejene v pomnilniških arhitekturah, kot so Apache Spark, Apache Hive, Drill in MapR-FS (visoko zmogljiva zamenjava HDFS), da bi ponudili različne polne zmogljivosti baze podatkov, kot so varnostno kopiranje, obnova po nesreči, toleranca napak itd. (Več o YARN, glejte Kakšne so prednosti okvira Hadoop 2.0 (YARN)?)

Katere vrednosti lahko Hadoop doda arhitekturi podatkov naslednje generacije?

Vrednosti, ki jih Hadoop lahko doda v arhitekturo podatkov naslednje generacije, je mogoče gledati z dveh vidikov: eno, ali izpolnjuje zgoraj opisana pričakovanja, in dve, ali dela še kaj dodatnega. Spodaj so vidne vrednosti, ki jih operativni Hadoop lahko prinese.

Hadoop lahko zdaj prek HDFS zagotavlja večjo razširljivost in upravljivost podatkov na svoji platformi. In operacijski sistem za podatke je bil omogočen prek Hadoopovih aplikacij YARN. Ta strategija predstavlja premik v podatkovni arhitekturi na temeljni ravni. Zdaj lahko Hadoop shranjuje različne vrste podatkov, kot so transakcijsko naravnane podatkovne baze, grafične baze podatkov in zbirke podatkov dokumentov, do teh podatkov pa lahko dostopate prek aplikacij YARN. Podatkov ni treba podvajati ali premikati na druge lokacije.

Izboljšana zmogljivost kot arhitektura podatkov podjetja

Operativni Hadoop je na poti, da postane osrednji sistem arhitekture podatkov podjetja. Ko se Hadoop bolj ukvarja s podjetniško podatkovno arhitekturo, bo odstranitev podatkovnih silosov odpravljena. Skoraj v vseh pogledih se bo hitro izboljšalo. Izboljšave bodo potekale v obliki učinkovitejših datotek datotek, boljšega delovanja motorja SQL, izboljšanih datotečnih sistemov in robustnosti, ki bodo zadovoljile potrebe poslovnih aplikacij.

Razlika med Hadoopom in drugimi tehnologijami

V preteklosti je bila glavna razlika med tehnologijami Hadoop in podatkovnimi podjetji velika zmogljivost podjetja Hadoop za obdelavo podatkov, poročanje in analitiko. Zdaj, ko operativni Hadoop vse bolj spada v arhitekturo podatkov podjetja, se razlika med entitetama vedno bolj zamegljuje. Tako se operativni Hadoop pojavlja kot odlična alternativa obstoječi arhitekturi podatkov o podjetju.

Zaključek

Glede na pričakovanja in napredek bo podjetje Hadoop že nekaj časa v središču industrije. Vendar je smiselno, da se ne osredotočamo preveč na Hadoop in preprosto ignoriramo druge tehnologije. To je zato, ker bodo druge tehnologije napredovale po istih parametrih in morda celo prehitile Hadoop. Nikoli ni dobro imeti monopola na trgu. Dobro je, da so proizvajalci drugih tehnologij razen Hadoopa lahko motivirani za zagotavljanje boljših izdelkov in celo vtičnikov, ki pomagajo Hadoopu izboljšati svoje zmogljivosti.