10 najpomembnejših Hadoop pogojev, ki jih morate vedeti in razumeti

Video.: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Vsebina

Najprej pa poglejte, kako deluje Hadoop
Hadoop pogosti
Hadoop porazdeljeni datotečni sistem (HDFS)
MapReduce
HBase
Panj
Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje
Prašič Apač
Apache iskrica
Apache Cassandra
Še en pogajalec o virih (YARN)
Impala

Vir: Trueffelpix / Dreamstime.com

Odvzem:

Če želite zares razumeti velike podatke, morate nekoliko razumeti Hadoop in jezik okoli njega.

Veliki podatki, privlačno ime za ogromne količine strukturiranih, nestrukturiranih ali polstrukturiranih podatkov, je zelo težko zajeti, shranjevati, upravljati, deliti, analizirati in vizualizirati, vsaj z uporabo tradicionalnih aplikacij za baze podatkov in programske opreme. Zato velike podatkovne tehnologije lahko učinkovito in učinkovito upravljajo in obdelujejo ogromno količino podatkov. In njegov Apache Hadoop zagotavlja okvir in z njim povezane tehnologije za distribucijo velikih nizov podatkov v grozdih računalnikov. Če želite res razumeti velike podatke, morate nekaj razumeti o Hadoopu. Tu si dobro oglejte zgornje besede, ki jih boste slišali glede Hadoopa - in kaj pomenijo.

Najprej pa poglejte, kako deluje Hadoop

Preden se podate v ekosistem Hadoop, morate jasno razumeti dve temeljni stvari. Prvo je, kako se datoteka shrani v Hadoop; drugo je, kako se obdelujejo shranjeni podatki. Vse tehnologije, povezane s Hadoopom, večinoma delujejo na teh dveh področjih in omogočajo uporabniku prijaznejšo tehnologijo. (Pridobite osnove, kako deluje Hadoop v Kako Hadoop pomaga rešiti velik problem podatkov.)

Zdaj pa o pogojih.

Hadoop pogosti

Okvir Hadoop ima različne module za različne funkcionalnosti in ti moduli lahko med seboj komunicirajo iz različnih razlogov. Hadoop Common se lahko opredeli kot skupna knjižnica pripomočkov, ki podpira te module v ekosistemu Hadoop. Ti pripomočki so v bistvu Java, arhivirane (JARs) datoteke. Te pripomočke v glavnem uporabljajo programerji in razvijalci v času razvoja.

Hadoop porazdeljeni datotečni sistem (HDFS)

Hadoop Distributed File System (HDFS) je podprojekt Apache Hadoop v okviru programske fundacije Apache. To je podlaga za shranjevanje v okviru Hadoop. To je porazdeljen, razširljiv in napak odporen datotečni sistem, ki se razteza na več strojne opreme blaga, znane kot Hadoop grozd. Cilj HDFS je zanesljivo shranjevanje ogromne količine podatkov z visokim dostopom do podatkov aplikacij. HDFS sledi arhitekturi master / slave, kjer je poveljnik znan kot NameNode, podrejeni pa so znani kot DataNodes.

MapReduce

Hadoop MapReduce je tudi podprojekt programske fundacije Apache. MapReduce je pravzaprav programski okvir, ki je izključno napisan na Javi. Njegov glavni cilj je obdelava velikih nizov podatkov v porazdeljenem okolju (sestavljenem iz blaga strojne opreme) na popolnoma vzporeden način. Okvir upravlja vse dejavnosti, kot so razporejanje delovnih mest, spremljanje, izvajanje in ponovna izvedba (v primeru neuspelih nalog).

HBase

Apache HBase je znan kot baza podatkov Hadoop. Gre za stolpno, porazdeljeno in razširljivo shrambo velikih podatkov. Znan je tudi kot vrsta baze podatkov NoSQL, ki ni sistem upravljanja relacijskih baz podatkov. Vloge za HBase so napisane tudi na Javi, ki je zgrajena na vrhu Hadoopa in deluje na HDFS. HBase se uporablja, kadar potrebujete branje / pisanje v realnem času in naključen dostop do velikih podatkov. HBase se modelira na podlagi konceptov Googles BigTable.

Panj

Apache Hive je programski sistem odprtokodnega skladišča podatkov. Panj je bil sprva razvit, še preden je prišel pod programski program Apache Software Foundation in postal odprtokoden. Omogoča upravljanje in poizvedovanje po velikih zbirkah podatkov v razdeljeni Hadoop združljivi shrambi. Hive izvaja vse svoje dejavnosti z uporabo jezika, podobnega SQL-u, imenovanega HiveQL. (Več o tem v kratkem uvodu v panj Apache in prašiče.)

Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje

Ne morete izboljšati svojih programskih sposobnosti, če nikogar ne skrbi za kakovost programske opreme.

Prašič Apač

Pig je prvotno začel Yahoo za razvoj in izvajanje opravil MapReduce na velikem obsegu razdeljenih podatkov. Zdaj je postal odprtokodni projekt v okviru programske fundacije Apache. Apache Pig lahko definiramo kot platformo za učinkovito analizo zelo velikih nizov podatkov. Infrastrukturni sloj prašičev ustvari zaporedja opravil MapReduce za dejansko obdelavo. Jezikovna plast prašičev je znana kot latinsko prašičje in ponuja funkcije, podobne SQL, za izvajanje poizvedb v razdeljenih naborih podatkov.

Apache iskrica

Spark je prvotno razvil AMPLab pri UC Berkeley. Projekt na najvišji ravni Apache je postal februarja 2014. Apache Spark je mogoče opredeliti kot odprt izvor, splošni okvir za grozdne računalnike, ki omogoča veliko hitrejšo analizo podatkov. Zasnovan je na distribucijskem datotečnem sistemu Hadoop, vendar ni povezan z ogrodjem MapReduce. Delovanje isker je v primerjavi z MapReduce veliko hitrejše. Ponuja API-je na visoki ravni v Scali, Python-u in Javi.

Apache Cassandra

Apache Cassandra je še ena odprtokodna baza podatkov NoSQL. Cassandra se pogosto uporablja za upravljanje velikih količin strukturiranih, polstrukturiranih in nestrukturiranih podatkov v več podatkovnih centrih in v oblaku. Cassandra je zasnovana na podlagi "mojstrske" arhitekture, kar pomeni, da ne podpira modela master / slave. V tej arhitekturi so vsa vozlišča enaka, podatki pa se razdelijo samodejno in enako po vseh vozliščih. Najpomembnejše funkcije Cassandra so neprekinjena razpoložljivost, linearna prilagodljivost, vgrajena / prilagodljiva podvajanja, nobena enotna točka napake in operativna preprostost.

Še en pogajalec o virih (YARN)

Še en pogajalec o sredstvih (YARN) je znan tudi kot MapReduce 2.0, vendar dejansko spada pod Hadoop 2.0. Preja je mogoče opredeliti kot okvir za načrtovanje opravil in upravljanje virov. Osnovna ideja YARN je nadomestiti funkcionalnosti JobTrackerja z dvema ločenima demonoma, odgovornima za upravljanje virov in načrtovanje / spremljanje. V tem novem okviru se bosta znašla globalni ResourceManager (RM) in poveljnik, specifičen za aplikacijo, znan kot ApplicationMaster (AM). Globalni ResourceManager (RM) in NodeManager (na podrejeno enoto) tvorita dejanski okvir za izračun podatkov. Obstoječe aplikacije MapReduce v1 se lahko zaženejo tudi na YARN, vendar jih je treba znova prevesti s kozarci Hadoop2.x.

Impala

Impala je mogoče opredeliti kot iskalnik SQL z ogromno močjo vzporedne obdelave (MPP). Izvira iz okvirja Apache Hadoop. Impala je zasnovana kot del ekosistema Hadoop. Ima isti fleksibilni datotečni sistem (HDFS), metapodatke, upravljanje z viri in varnostne okvire, kot jih uporabljajo druge komponente ekosistema Hadoop. Najpomembnejša točka je opozoriti, da je Impala veliko hitrejša pri obdelavi poizvedb v primerjavi s Hivem. Ne smemo pa pozabiti tudi, da je Impala namenjena poizvedovanju / analiziranju na majhnem naboru podatkov in je zasnovana predvsem kot orodje za analitiko, ki deluje na obdelanih in strukturiranih podatkih.

Hadoop je pomembna tema v IT, vendar obstajajo tisti, ki so skeptični do njegove dolgoročne sposobnosti. Preberite več v Kaj je Hadoop? Teorija cinike.