7 stvari o Hadoopu

Video.: Plato’s Allegory of the Cave - Alex Gendler

Vsebina

Kako se je Hadoop začel?
Kaj je tako pomembno pri Hadoopu?
Kaj je shema pri branju?
Kaj je panj?
Kakšne podatke analizira Hadoop?
Lahko podate primer resničnega sveta Hadoopa?
Je Hadoop že zastarel ali samo morfira?

Vir: Pressureua / Dreamstime.com

Odvzem:

Hadoop že leta pomaga analizirati podatke, vendar verjetno obstaja več kot nekaj stvari, ki jih o tem ne veste.

Kaj je Hadoop? To je rumeni slon igrače. Ni tisto, kar ste pričakovali? Kako je s tem: Doug Cutting - soustvarjalec tega programskega programa z odprto kodo - si je ime izposodil po sinu, ki ga je slučajno poklical njegov igrački slon Hadoop. Na kratko, Hadoop je programski okvir, ki ga je razvila programska fundacija Apache, ki je bila namenjena razvoju podatkovno intenzivnega in porazdeljenega računalništva. In njegova ključna sestavina v drugih bralnikih brskalnikov nikoli ne more dobiti dovolj: velikih podatkov. Tukaj je sedem stvari, ki jih morate vedeti o tej edinstveni, brezplačno licencirani programski opremi.

Kako se je Hadoop začel?

Pred dvanajstimi leti je Google zgradil platformo za manipulacijo z ogromnimi količinami podatkov, ki jih je zbiral. Tako kot podjetje pogosto počne, je tudi Google svoj dizajn dal na voljo javnosti v obliki dveh prispevkov: Google File System in MapReduce.

Hkrati sta Doug Cutting in Mike Cafarella delala na novem iskalniku Nutch. Oba sta se tudi borila, kako ravnati z velikimi količinami podatkov. Potem sta oba raziskovalca dobila Googlove prispevke. To srečno presečišče je vse spremenilo z uvedbo Cuttinga in Cafarelle v boljši datotečni sistem in način spremljanja podatkov, kar je na koncu vodilo k ustvarjanju Hadoopa.

Kaj je tako pomembno pri Hadoopu?

Danes je zbiranje podatkov lažje kot kdajkoli prej. Ima vse te podatke številne priložnosti, vendar obstajajo tudi izzivi:

Ogromne količine podatkov zahtevajo nove metode obdelave.
Zajeti podatki so v nestrukturirani obliki.

Cutting in Cafarella sta za reševanje izzivov pri manipulaciji z ogromnimi količinami nestrukturiranih podatkov pripravila dvodelno rešitev. Za reševanje problema s količino podatkov Hadoop uporablja porazdeljeno okolje - mrežo blagovnih strežnikov - in ustvarja gručo vzporedne obdelave, ki prinaša več moči obdelave pri dodeljeni nalogi.

Nato so se morali spoprijeti z nestrukturiranimi podatki ali podatki v oblikah, ki jih standardni sistemi relacijskih baz podatkov niso mogli obravnavati. Cutting in Cafarella sta Hadoop zasnovala za delo s katero koli vrsto podatkov: strukturiranimi, nestrukturiranimi, slikami, zvočnimi datotekami. Ta bela knjiga Cloudera (Hadoop integrator) pojasnjuje, zakaj je to pomembno:

"Hadoop s tem, ko uporablja vse svoje podatke, ne le tiste, ki je v vaših bazah podatkov, odkriva skrite odnose in razkriva odgovore, ki so bili vedno nedosegljivi. Namesto lov lahko začnete sprejemati več odločitev na podlagi trdih podatkov in poglejte pri celotnih zbirkah podatkov, ne le v vzorcih in povzetkih. "

Kaj je shema pri branju?

Kot smo že omenili, je ena od prednosti Hadoopa njegova sposobnost ravnanja z nestrukturiranimi podatki. V nekem smislu je to "brcanje pločevinke po cesti." Podatki na koncu potrebujejo neko strukturo, da jih lahko analizirajo.

Tu se začne igrati shema ob branju. Prebrana shema je merjenje, v kakšnem formatu so podatki, kje najti podatke (ne pozabite, da so podatki razpršeni med več strežniki) in kaj je treba storiti s podatki - ni enostavna naloga. Govorili so, da za manipuliranje podatkov v sistemu Hadoop potrebujejo veščine poslovnega analitika, statistika in programerja Java. Na žalost ni veliko ljudi s temi kvalifikacijami.

Kaj je panj?

Če bo Hadoop uspel, je bilo treba delo s podatki poenostaviti. Torej, odprtokodna množica se je lotila dela in ustvarila Pive:

"Hive ponuja mehanizem za strukturiranje teh podatkov in iskanje podatkov s pomočjo jezika, podobnega SQL-u, imenovanega HiveQL. Hkrati ta jezik omogoča tudi, da tradicionalni programerji zemljevidov / reduktorjev priklopijo svoje prilagojene zemljevide in reduktorje, kadar je neprijetno oz. neučinkovit za izražanje te logike v HiveQL-u. "
Hive omogoča najboljše iz obeh svetov: osebje zbirke podatkov, ki je seznanjeno z ukazi SQL, lahko manipulira s podatki, razvijalci, seznanjeni s shemo pri postopku branja, pa še vedno lahko ustvarijo poizvedbe po meri.

Kakšne podatke analizira Hadoop?

Spletna analitika je prva stvar, ki pride na misel, analiziranje spletnih dnevnikov in spletnega prometa za optimizacijo spletnih mest. se na primer zagotovo ukvarja s spletno analitiko, pri čemer Hadoop uporablja za razvrščanje terabajtov podatkov, ki jih podjetje nabira.

Podjetja uporabljajo skupine Hadoop za analizo tveganja, odkrivanje goljufij in segmentacijo na osnovi kupcev. Komunalna podjetja uporabljajo Hadoop za analizo podatkov senzorjev iz svojega električnega omrežja, kar jim omogoča optimizacijo proizvodnje električne energije. Večja podjetja, kot so Target, 3M in Medtronics, uporabljajo Hadoop za optimizacijo distribucije izdelkov, ocene poslovnega tveganja in segmentacije na osnovi kupcev.

V Hadoop se vlagajo tudi univerze. Brad Rubin, izredni profesor na Univerzi St. Thomas podiplomskih programov za programsko opremo, je omenil, da njegovo znanje Hadoop pomaga razvrščati s številnimi količinami podatkov, ki jih zbirajo raziskovalne skupine na univerzi.

Lahko podate primer resničnega sveta Hadoopa?

Eden izmed bolj znanih primerov je TimesMachine. New York Times ima zbirko slik TIFF iz časopisov na celotni strani, z njimi povezane metapodatke in članka od 1851 do 1922, ki znašajo terabajte podatkov. Derek Gottfrid iz NYT, ki uporablja sistem EC2 / S3 / Hadoop in specializirano kodo:

"Zaužili so 405.000 zelo velikih slik TIFF, 3.3 milijona člankov v SGML in 405.000 datotek xml, ki članke preslikajo v pravokotne regije v TIFF-jih. Ti podatki so bili pretvorjeni v bolj prijazne spletu 810.000 slik PNG (sličice in polne slike) in 405.000 datotek JavaScript. "
Z uporabo strežnikov v oblaku spletnih storitev Amazon je Gottfrid omenil, da so lahko v manj kot 36 urah obdelali vse podatke, potrebne za TimesMachine.

Je Hadoop že zastarel ali samo morfira?

Hadoop obstaja že več kot desetletje. To mnogi pravijo, da je zastarelo. En strokovnjak, doktor David Rico, je dejal, da "so izdelki IT kratkotrajni. V pasjih letih je Googles izdelkov približno 70, Hadoop pa 56."

Morda je nekaj resnice, kar pravi Rico. Kaže, da je Hadoop opravil večjo prenovo. Če želite izvedeti več o tem, me je Rubin povabil na sestanek uporabniške skupine Twin Cities Hadoop, tema pogovora pa je bila Uvod v PREJEM:

"Apache Hadoop 2 vključuje nov motor MapReduce, ki ima številne prednosti v primerjavi s prejšnjo implementacijo, vključno z boljšo razširljivostjo in izkoriščenostjo virov. Nova izvedba je zgrajena na splošnem sistemu za upravljanje virov za zagon distribuiranih aplikacij, imenovanega YARN."Hadoop se v krogih baz podatkov in upravljanja z vsebinami veliko zbudi, vendar je okoli njega še veliko vprašanj in kako ga najbolje uporabiti. Teh je le nekaj. Če jih imate več, naj bodo na naš način. Pa odgovorite najboljši na Techopedia.com.