Globok potop v Hadoop - prepis TechWise Epizoda 1 - Tehnologija

Vir: Stephen Vanhorn / Dreamstime.com

Odvzem:

Voditelj Eric Kavanagh razpravlja o podjetju Hadoop, kje je to potekalo in kam gre z notranjimi strokovnjaki.

Opomba urednikov: To je prepis spletnega prenosa v živo. Spletno oddajo si lahko v celoti ogledate tukaj.

Eric Kavanagh: Dame in gospod, čas je, da se preudarite! Čas je za TechWise, popolnoma novo predstavo! Ime mi je Eric Kavanagh. Bom vaš moderator za našo uvodno epizodo TechWise. To je prav. To je partnerstvo Techopedia in Bloor Group, seveda slave Inside Analysis.

Ime mi je Eric Kavanagh. Moderiral bom ta res zanimiv in vpleten dogodek, ljudje. Kopali bomo globoko v tkanju, da bomo razumeli, kaj se dogaja s to veliko stvarjo, imenovano Hadoop. Kaj je slon v sobi? Imenuje se Hadoop. Poskušali bomo ugotoviti, kaj to pomeni in kaj se dogaja z njo.

Najprej hvala našim sponzorjem, GridGain, Actian, Zettaset in DataTorrent. Na koncu tega dogodka bomo od vsake od njih dobili nekaj kratkih besed. Imeli bomo tudi vprašanja in vprašanja, zato ne bodite sramežljivi - nikoli ne postavljajte vprašanj.

Pokopali se bomo v podrobnosti in postavljali težka vprašanja našim strokovnjakom. In če govorimo o strokovnjakih, hej, tam so. Torej, slišali bomo od našega lastnega dr. Robina Bloorja in ljudje, zelo sem navdušen nad legendarnim Ray Wangom, glavnim analitikom in ustanoviteljem Constellation Research. Danes je na spletu, da nam predstavi svoje misli in je podoben Robinu, da je neverjetno raznolik in se resnično osredotoča na veliko različnih področij in jih ima sposobnost sintetizirati ter resnično razumeti, kaj se dogaja tam na tem celotnem področju informacijske tehnologije in upravljanje podatkov.

Torej, obstaja ta mali simpatični slon. Kot vidite, je na začetku poti. Zdaj se šele začne, samo nekako se začne, celotna Hadoop stvar. Seveda v letih 2006 ali 2007, ko je bil sproščen v odprtokodno skupnost, se je dogajalo veliko, ljudje. Zgodilo se je ogromno. Pravzaprav bi rad pripovedoval zgodbo, tako da bom hitro delil namizje, vsaj mislim, da sem. Delimo na hitro namizje.

Prikažem vam prav nore, nore zgodbe. Tako je Intel vložil 740 milijonov dolarjev za nakup 18 odstotkov Cloudere. Mislil sem in rad bi: "sveti božič!" Začel sem se ukvarjati z matematiko in tako je: "Vrednost je 4,1 milijarde USD." Razmislimo o tem za sekundo. Mislim, če je WhatsApp vreden dve milijardi dolarjev, predvidevam, da bi bil Cloudera vreden 4,1 milijarde dolarjev, kajne? Mislim, zakaj pa ne? Nekatere od teh številk so ravno danes skozi okno, ljudje. Mislim, navadno glede naložb imate EBITDA in vse te druge različne mehanizme, več prihodkov in tako naprej. No, nekaj hektarjev več prihodkov bo doseglo 4,1 milijarde dolarjev za Cloudero, ki je super podjetje. Ne razumite me narobe - tam je nekaj zelo, zelo pametnih ljudi, vključno s fantom, ki je začel celotno norost Hadoop, Doug Cutting, tam je - veliko zelo inteligentnih ljudi, ki delajo veliko resnično, resnično kul stvari, a bistvo je, da je 4,1 milijarde dolarjev, to je veliko denarja.

Torej, tu je nekakšen očiten očiten trenutek, ko mi gre zdaj skozi glavo, kar je čip, Intel. Njihovi oblikovalci čipov prinašajo ogled čipa, optimiziranega za Hadoop - tako si moram misliti, ljudje. To je samo moje ugibanje To je samo govorica, ki prihaja od mene, če hočete, vendar je nekako smiselno. In kaj vse to pomeni?

Torej, tukaj je moja teorija. Kaj se dogaja? Veliko teh stvari ni novo. Masivna vzporedna obdelava ni grozno nova. Vzporedna obdelava zagotovo ni nova. Že nekaj časa sem v svetu superračunalništva. Veliko teh stvari, ki se dogajajo, ni novo, vendar obstaja vrsta splošnega zavedanja, da obstaja nov način za napad na nekatere od teh težav. Kar se mi dogaja, če pogledate nekaj velikih prodajalcev Cloudere ali Hortonworks in nekaterih drugih fantov, kaj počnejo v resnici, če jih spustite na najbolj natančen destiliran nivo, je razvoj aplikacij. To počnejo

Oblikujejo nove aplikacije - nekatere vključujejo poslovno analitiko; nekateri vključujejo sisteme za polnjenje. Eden od naših prodajalcev, ki je govoril o tem, tovrstne stvari počne ves dan, danes na razstavi. Če pa je grozno nov, je odgovor spet "ne v resnici", vendar se dogajajo velike stvari in osebno mislim, da se dogaja z Intelom, ki ustvarja to ogromno naložbo, tržni korak. Danes gledajo na svet in vidijo, da je danes to nekakšen monopolni svet. Tam so in so premagali samo voh iz slabega MySpacea. LinkedIn je premagal smrad iz revnih Kdo je kdo. Torej si oglejte okoli sebe in to je ena služba, ki danes prevladuje v vseh teh različnih prostorih v našem svetu in mislim, da je Intel vrgel vse svoje čipe na Cloudero in jo poskusil povzdigniti na vrh zložbe - to je samo moja teorija.

Tako, kot sem rekel, ljudje bomo imeli dolgo sejo vprašanj, zato ne bodite sramežljivi. kadarkoli imate vprašanja. To lahko storite s to komponento Q&A na konzoli za spletno oddajanje. In s tem želim priti do naše vsebine, ker smo prebrodili veliko stvari.

Torej, Robin Bloor, naj ti predam ključe in tla so tvoja.

Robin Bloor: V redu, Eric, hvala za to. Pripeljimo plešeče slone. Pravzaprav je zanimiva stvar, da so sloni edini kopenski sesalci, ki dejansko ne morejo skočiti. Vsi ti sloni v tej konkretni grafiki imajo vsaj eno nogo na tleh, zato mislim, da je to izvedljivo, toda do neke mere so to očitno Hadoop sloni, tako zelo, zelo sposobni.

Resnično vprašanje, za katero menim, da ga je treba razpravljati in ga je treba pošteno obravnavati. Treba je razpravljati, preden greste kam drugam, to je, da se začnete resnično pogovarjati o tem, kaj pravzaprav je Hadoop.

Ena od stvari, ki je absolutno na osnovi človeške igre, je trgovina s ključnimi vrednostmi. Včasih smo imeli trgovine s ključnimi vrednostmi. Včasih smo jih imeli v IBM-ovem osnovnem okviru. Imeli smo jih na miniračunalnikih; DEC VAX je imel datoteke IMS. ISAM zmogljivosti so bile na skoraj vsakem miniračunalniku, ki ga lahko dobite. Toda nekje okoli 80. let je prišel Unix in Unix v resnici ni imel shrambe ključ-vrednost. Ko ga je razvil Unix, so se razvili zelo hitro. V resnici se je zgodilo, da so tam prodajalci baz podatkov, zlasti Oracle, prodali vaše baze podatkov, da so skrbeli za vse podatke, ki jih želite upravljati na Unixu. Izkazalo se je, da sta Windows in Linux enaka. Torej, industrija je bila najboljši del 20 let brez splošne namenske ključ-vrednosti. No, zdaj se je vrnilo. Ne samo, da je nazaj, ampak je tudi razširljiv.

Zdaj mislim, da je resnično temelj tega, kar Hadoop v resnici je in do neke mere določa, kam bo šel. Kaj nam je všeč v trgovinah s ključnimi vrednostmi? Tisti, ki ste stari toliko kot jaz in se pravzaprav spomnite, da delate s trgovinami s ključnimi vrednostmi, se zavedate, da bi jih lahko precej uporabljali za neformalno postavitev baze podatkov, vendar le neformalno. Veste, da metapodatki hitro vrednotijo shranjevanje v programski kodi, toda dejansko bi lahko naredili to zunanjo datoteko in lahko, če bi želeli začeti obravnavati shrambo ključ-vrednost, nekoliko podobno kot bazo podatkov. Seveda seveda ni imel vse tiste možnosti za obnovitev, ki jo ima baza podatkov, in baz podatkov ni imel prav veliko stvari, vendar je bila to razvijalna uporabna funkcija za razvijalce in to je eden od razlogov, da mislim da se je Hadoop izkazal za tako priljubljenega - preprosto zato, ker so ga hitri koderi, programerji in razvijalci. Spoznali so, da trgovina ni samo ključna vrednost, ampak je trgovina s ključnimi vrednostmi. Veliko lepi v nedogled. Te lestvice sem poslal na tisoče strežnikov, tako da je to res velika stvar pri Hadoopu, je to tisto, kar je.

Poleg tega ima tudi MapReduce, ki je algoritem za paralelizacijo, vendar po mojem mnenju to ni pomembno. Torej, veste, Hadoops je kameleon. To ni samo datotečni sistem. Videla sem različne vrste zahtevkov za Hadoop: to je skrivna baza podatkov; to ni nobena skrivna baza podatkov; to je običajna trgovina; analitično orodje; njegovo okolje ELT; je orodje za čiščenje podatkov; je skladišče podatkov podatkovnih platform; je arhivska trgovina; je zdravilo za raka, in tako naprej. Večina teh stvari res ne drži za vaniljo Hadoop. Hadoop je verjetno prototipiranje - zagotovo je okolje za izdelavo prototipov za bazo podatkov SQL, a ga v resnici ni, če v Hadoop postavite starostni prostor s starostnim katalogom, dobite nekaj, kar je videti kot baza podatkov, vendar v resnici ni to, kar kdo bi poklicali bazo podatkov glede na sposobnost. Veliko teh zmogljivosti, zagotovo jih lahko dobite na Hadoopu. Gotovo jih je veliko. Pravzaprav lahko dobite nek vir Hadoopa, sam Hadoop pa ni tisto, kar bi poimenoval operativno kaljen, in zato je dogovor o Hadoopu, resnično ne bi smel biti ničesar drugega, to, da morate imeti tretjo osebo izdelke za izboljšanje.

Torej, če govorim o tebi, lahko dodaš le nekaj vrstic, ko govorim o Hadoopu, ki presega. Prvič, sposobnost poizvedb v realnem času, dobro veste, da je v realnem času vrsta poslovnega časa, v resnici pa je skoraj vedno uspešnost v nasprotnem primeru. Mislim, zakaj bi inženir v realnem času? Hadoop tega res ne počne. Naredi nekaj, kar je blizu v realnem času, vendar v resnici ne počne stvari. Streaming je, vendar to ne deluje na način, kot bi poimenoval resnično kritične vrste, ki jih lahko storijo platforme za pretakanje aplikacij. Obstaja razlika med bazo podatkov in shrambo, ki jo je mogoče odstraniti. Če ga sinhronizirate s Hadoop-om, dobite shranjeno zbirko podatkov. To je kot baza podatkov, vendar ni isto kot baza podatkov. Po mojem mnenju Hadoop v svoji izvorni obliki sploh ne velja za bazo podatkov, ker bi moral imeti bazo podatkov. Hadoop naredi veliko, vendar ne naredi posebej dobro. Ponovno, tamkajšnje zmogljivosti so bile, vendar so bile poti daleč od tega, da bi dejansko imeli hitro zmogljivost na vseh teh področjih.

Druga stvar, ki jo je treba razumeti pri Hadoopu, je njegova vrsta, ki je bila daleč od njegovega razvoja. Razvili so ga že v zgodnjih dneh; razvili so ga, ko smo imeli strežnike, ki so imeli dejansko samo en procesor na strežniku. Nikoli nismo imeli večjedrnih procesorjev in je bil zgrajen za zagon omrežij, lansirne mreže in severs. Eden izmed oblikovalskih ciljev Hadoopa je bil, da dela nikoli ne izgubijo. In res je šlo za okvaro diska, saj če imate na stotine strežnikov, potem obstaja verjetnost, da če imate diske na strežnikih, obstaja verjetnost, da boste imeli na razpolago nekaj časa, kot je 99.8. To pomeni, da boste imeli povprečno okvaro enega od teh strežnikov enkrat na 300 ali 350 dni, en dan v letu. Če bi jih imeli na stotine, bi bila verjetnost, da bi kateri koli dan v letu prišli do okvare strežnika.

Hadoop je bil narejen posebej za reševanje te težave - tako da v primeru, da kar koli ne uspe, na vsakem določenem strežniku naredi posnetke vsega, kar se dogaja, in lahko obnovi paketno opravilo, ki se izvaja. In to je bilo vse, kar se je v Hadoopu dejansko kdajkoli dogajalo, in sicer je bila paketna opravila in to je res uporabna sposobnost, je treba reči. Nekatera skupna opravila, ki so se izvajala - zlasti pri Yahoo-u, kjer se mi je Hadoop nekako rodil - bi kandidirala dva ali tri dni, in če ne bi uspela po enem dnevu, resnično niste želeli izgubiti dela to je bilo storjeno. To je bila oblikovalska točka za razpoložljivostjo na Hadoopu. Ne bi imenovali tako visoke razpoložljivosti, lahko pa bi jo imenovali velika razpoložljivost za serijska opravila v paketu. To je verjetno način, kako to pogledati. Visoka razpoložljivost je vedno konfigurirana glede na značilnosti delovnih linij. Trenutno je Hadoop mogoče konfigurirati samo za res serijska serijska opravila glede tovrstne obnovitve. Podjetništvo o visoki razpoložljivosti je verjetno najbolje razmisliti v smislu transakcijskega celostno življenje. Verjamem, da Hadoop tega še ne počne, če na to ne gledate kot na stvar v resničnem času. Od tega je verjetno daleč.

Toda tukaj je lepa stvar Hadoop-a. Grafika na desni strani, ki ima seznam roba prodajalcev, in vse vrstice na njej kažejo povezave med temi prodajalci in drugimi izdelki v ekosistemu Hadoop. Če pogledate na to, je to izjemno impresiven ekosistem. Precej izjemno. Očitno se pogovarjamo z veliko prodajalci glede na njihove zmožnosti. Med prodajalci, s katerimi sem govoril, je nekaj res izjemnih zmogljivosti uporabe Hadoopa in spomina, načina uporabe Hadoopa kot stisnjenega arhiva, uporabe Hadoop-a kot okolja ETL in tako naprej. Ampak res, če izdelek dodate v sam Hadoop, v določenem prostoru deluje izjemno dobro. Čeprav sem kritičen do rodnega Hadoopa, do Hadoopa nisem kritičen, ko mu dejansko dodate nekaj moči. Po mojem mnenju Hadoopova priljubljenost zagotavlja njegovo prihodnost. Mislim, da tudi če vsaka vrstica kode, napisana do zdaj na Hadoopu, izgine, ne verjamem, da bo izginil API HDFS. Z drugimi besedami, mislim, da je datotečni sistem, API, tu ostal in po možnosti tudi PRI, planer, ki ga pregleduje.

Ko to dejansko pogledate, je to zelo pomembna sposobnost in bolezen voska o tem v minuti, toda druga stvar, ki je, recimo, vznemirjajoči ljudje o Hadoopu, je celotna odprtokodna slika. Torej je vredno preučiti, kakšna je odprtokodna slika v smislu tega, kar menim kot resnično sposobnost.Medtem ko lahko Hadoop in vse njegove komponente zagotovo počnejo to, kar imenujemo dolžine podatkov - ali kot raje poimenujem, rezervoar podatkov - je zagotovo zelo dobro območje za prikazovanje podatkov v organizacijo ali za zbiranje podatkov v organizaciji - izjemno dobro za peskovnike in za ribolov podatkov. Zelo dobro je kot razvojna platforma za izdelavo prototipov, ki bi jo lahko uvedli na koncu dneva, vendar kot razvojno okolje veste, da je tam vse, kar želite. Kot arhivska trgovina ima skoraj vse, kar potrebujete, in seveda ni drago. Mislim, da se od Hadoopa ne bi smeli ločiti nobene od teh dveh stvari, čeprav formalno, če hočete, niso sestavni deli Hadoopa. Spletni klin je prinesel ogromno analitike v odprtokodni svet in veliko te analitike se zdaj izvaja na Hadoopu, ker vam daje priročno okolje, v katerem lahko dejansko vzamete veliko zunanjih podatkov in začnete predvajati na analitičnem peskovniku.

In potem ste dobili odprtokodne zmogljivosti, oboje je strojno učenje. Obe sta izredno močni v smislu, da izvajata močne analitične algoritme. Če sestavite te stvari, imate jedra zelo, zelo pomembne sposobnosti, ki je tako ali drugače zelo verjetno - ali se bo razvijala sama ali pa bodo prodajalci prišli, da napolnijo manjkajoče koščke - zelo verjetno še dolgo in vsekakor mislim, da strojno učenje že močno vpliva na svet.

Evolucija Hadoopa, YARN je spremenila vse. Kar se je zgodilo, je bil MapReduce precej privezan na zgodnji datotečni sistem HDFS. Ko je bil YARN predstavljen, je v prvi izdaji ustvaril sposobnost načrtovanja. Od prve izdaje ne pričakujete izredno sofisticiranega razporeda, vendar je to pomenilo, da zdaj ni več nujno okolje zakrpa. Šlo je za okolje, v katerem je bilo mogoče razporediti več delovnih mest. Takoj se je pojavila cela vrsta prodajalcev, ki so se držali stran od Hadoopa - pravkar so prišli in se povezali z njim, ker so potem lahko samo gledali kot okolje načrtovanja v datotečnem sistemu in so lahko naslovili stvari na to. Obstajajo celo prodajalci podatkovnih baz, ki so svoje baze podatkov implementirali na HDFS, ker samo vzamejo motor in ga preprosto postavijo na HDFS. S kaskadno in z YARN postane zelo zanimivo okolje, ker lahko ustvarite zapletene delovne tokove prek HDFS in to resnično pomeni, da lahko začnete razmišljati o njej kot o resnično platformi, ki lahko hkrati izvaja več opravil in se sama potiska k točki delati kritične stvari. Če boste to storili, boste verjetno morali kupiti nekaj komponent drugih proizvajalcev, kot so varnost in tako naprej, in tako naprej, kar Hadoop pravzaprav nima revizijskega računa, da bi zapolnil vrzeli, vendar stopi v točko, ko lahko tudi z izvornim odprtokodnim kodrom počneš nekaj zanimivih stvari.

Glede na to, kje mislim, da bo Hadoop v resnici šel, osebno verjamem, da bo HDFS postal privzeti datotečni sistem po meri in bo zato postal OS, operacijski sistem, za omrežje za pretok podatkov. Mislim, da ima v tem ogromno prihodnost in mislim, da se tam ne bo ustavilo. Mislim, da ekosistem pravzaprav pomaga, saj skoraj vsi, vsi prodajalci v vesolju, dejansko tako ali drugače vključujejo Hadoop in to samo omogočajo. V zvezi s še eno točko, ki jo je vredno ovrednotiti Hadoop, ali ne gre za zelo dobro platformo in paralelizacijo. Če si dejansko ogledate, kaj počne, to, kar dejansko počne, je, da redno posname fotografijo na vsakem strežniku, ko izvaja svoje naloge MapReduce. Če bi načrtovali resnično hitro paralelizacijo, ne bi počeli nič takega. V bistvu najbrž ne bi uporabljal MapReduce sam. MapReduce je samo tisto, za kar bi rekel, da je napol sposoben paralelizma.

Obstajata dva pristopa k paralelizmu: eden je s cevovodnimi procesi, drugi pa z deljenjem podatkov MapReduce in dela delitev podatkov, tako da obstaja veliko delovnih mest, pri katerih MapReduce dejansko ne bi bil najhitrejši način, vendar bo vam vzporedim paralelizem in tega ne morete odvzeti. Ko imate veliko podatkov, taka moč ponavadi ni tako uporabna. Preja, kot sem že rekel, je zelo mlada sposobnost načrtovanja.

Hadoop je, nekako potegne črto na pesku, Hadoop ni skladišče podatkov. Daleč od tega, da bi bilo skladišče podatkov, je skoraj nesmiseln predlog, če bi rekli, da je. V tem diagramu je prikazano na vrhu nekakšen pretok podatkov, ki izhaja iz rezervoarja podatkov Hadoop v bazo podatkov z obsežnim obsegom, kar pravzaprav počnemo, skladišče podatkov o podjetju. Prikažem starejše zbirke podatkov, vnašam podatke v podatkovno skladišče in sprostim dejavnost, ustvarjam baze podatkov iz skladišča podatkov, vendar to dejansko predstavlja nastanek, in rekel bi, da je to kot prva generacija kaj se zgodi s podatkovnim skladiščem s Hadoopom. Če pa sami pogledate skladišče podatkov, se zavedate, da ste pod podatkovnim skladiščem dobili optimizator. Imate razporejene poizvedbene delavce v zelo številnih procesih, ki sedijo nad zelo veliko velikim številom diskov. To se dogaja v podatkovnem skladišču. To je pravzaprav takšna arhitektura, ki je zgrajena za podatkovno skladišče, in da je potrebno nekaj časa, da sestavi nekaj takega, Hadoop pa tega sploh nima. Torej Hadoop ni skladišče podatkov in po mojem mnenju to ne bo postal kmalu.

Ima ta relativni rezervoar podatkov in nekako je videti zanimivo, če na svet gledate le na vrsto dogodkov, ki se pretakajo v organizacijo. To je prikazano na levi strani tega diagrama. Če gre skozi filtriranje in usmerjanje, in stvari, ki jih je treba uporabiti za pretakanje, se odstranijo iz aplikacij za pretakanje, vse drugo pa gre naravnost v zbiralnik podatkov, kjer je pripravljeno in očiščeno, nato pa ga ETL pošlje bodisi do enega samega podatka skladišče ali skladišče logičnih podatkov, sestavljeno iz več motorjev. To je po mojem mnenju naravna razvojna linija za Hadoop.

Kar zadeva ETW, je treba izpostaviti eno od stvari, ki je bila dejansko shranjena v podatkovno skladišče - ni tisto, kar je bilo. Zagotovo danes pričakujete, da obstaja hierarhična zmožnost na hierarhične podatke o tem, kako ljudje ali nekateri ljudje kličejo dokumente v podatkovno zbirko. To je JSON. Mogoče bodo omrežne poizvedbe, ki predstavljajo podatkovne baze grafov, po možnosti analitike. Torej, to, kar gremo, je ETW, ki ima dejansko bolj zapleteno delovno obremenitev od tiste, ki smo je vajeni. Tako je zanimivo, ker na nek način pomeni, da je podatkovno skladišče še bolj prefinjeno, in zaradi tega bo še več časa, preden se bo Hadoop približal. Pomen skladišča podatkov se širi, vendar še vedno vključuje optimizacijo. Imeti morate sposobnost optimizacije, ne le nad poizvedbami, ampak nad vsemi temi dejavnostmi.

To je res, res. To je vse, kar sem hotel povedati o Hadoopu. Mislim, da lahko predam Rayu, ki ni dobil nobenih diapozitivov, ampak hec vedno dobro govori.

Eric Kavanagh: Diapozitive bom odnesel. Naš prijatelj, Ray Wang Torej, Ray, kaj misliš o vsem tem?

Ray Wang: Mislim, da je bila to verjetno ena najbolj sočasnih in odličnih zgodovin trgovin s ključnimi vrednostmi in kamor je Hadoop šel v razmerje do podjetja, ki je zunaj, zato se vedno poslušam veliko, ko poslušam Robina.

Pravzaprav imam en diapozitiv. Tu lahko pospremim en drsnik.

Eric Kavanagh: Pojdite naprej in kliknite na, kliknite Start in pojdite na skupno rabo namizja.

Ray Wang: Razumeš. Pravzaprav bom delil. Aplikacijo si lahko ogledate sami. Poglejmo, kako gre.

Ves ta pogovor o Hadoopu in potem gremo globoko v pogovor o tehnologijah, ki so tam in kamor hodi Hadoop, in velikokrat ga rad vzamem nazaj, da se resnično pogovori o podjetju. Veliko stvari, ki se dogaja na tehnološki strani, je v resnici ta del, kjer smo govorili o skladiščih podatkov, upravljanju informacij, kakovosti podatkov, obvladovanju teh podatkov in tako ponavadi to tudi vidimo. Če pogledate ta graf tukaj na samem dnu, je zelo zanimivo, da vrste posameznikov, na katere naletimo, govorijo o Hadoopu. Imamo tehnologe in podatkovne znanstvenike, ki pozirajo in so navdušeni, in običajno gre za vire podatkov, kajne? Kako obvladamo vire podatkov? Kako to spravimo v prave stopnje kakovosti? Kaj naredimo z upravljanjem? Kaj lahko storimo za ujemanje različnih vrst virov? Kako ohranjamo rodove? In vsa taka razprava. In kako lahko iz našega Hadoopa iztržimo več SQL? Tako da se ta del dogaja na tej ravni.

Potem je na strani informacij in orkestracije tu zanimivo. Začenjamo vezati rezultate tega vpogleda, ki ga dobimo ali ga povlečemo nazaj od poslovnih procesov? Kako ga povežemo z vsemi modeli metapodatkov? Ali povezujemo pike med predmeti? In tako novi glagoli in razprave o tem, kako uporabljamo te podatke, se premikajo od tistega, kar smo tradicionalno v svetu CRUD: ustvarjamo, beremo, posodabljamo, brišemo, v svet, ki razpravlja o tem, kako sodelujemo ali delimo ali sodelujemo oz. všeč ali potegniti nekaj.

Tu začnemo videti veliko navdušenja in inovacij, zlasti o tem, kako te podatke potegniti in jih ceniti. To je tehnološka razprava pod rdečo črto. Nad to rdečo črto dobimo zelo vprašanja, ki smo si jih vedno želeli zastaviti in eno od njih, ki ga vedno zastavljamo, je, na primer, morda je vprašanje v trgovini na drobno za vas: "Zakaj se rdeči puloverji prodajajo bolje v Alabami kot modri puloverji v Michiganu? " Lahko si premislite in si rečete: "To je nekaj zanimivega." Vidite ta vzorec. Zastavimo to vprašanje in se sprašujemo: "Hej, kaj počnemo?" Mogoče gre za državne šole - Michigan proti Alabami. V redu, to imam, vidim, kam gremo. In tako začnemo dobivati poslovno stran hiše, ljudi v financah, ljudi, ki imajo tradicionalne BI-zmožnosti, ljudi v marketingu in ljudi v HR, ki pravijo: "Kje so moji vzorci?" Kako pridemo do teh vzorcev? Tako na strani Hadoop vidimo še en način inovativnosti. Gre res za to, kako hitreje posodobimo vpoglede. Kako vzpostavimo tovrstne povezave? Vse to velja za ljudi, ki se ukvarjajo s podobno, ad: tech, ki v bistvu poskušajo povezati oglase in ustrezne vsebine, vse od omrežij za zbiranje ponudb v realnem času, do običajnih oglasov in umestitve oglasov, in to na začetku.

Zato je zanimivo gledati to. Vidite napredovanje Hadoopa iz: "Hej, tukaj je tehnološka rešitev. Tukaj moramo storiti, da te informacije razkrijemo ljudem." Potem, ko prestopi čez poslovni del, je tukaj zanimivo. To je vpogled. Kje je predstava? Kje je odbitek? Kako napovedujemo stvari? Kako prevzamemo vpliv? In nato to pripeljite na zadnjo raven, kjer dejansko vidimo še en niz Hadoop-ovih inovacij, ki se dogajajo okoli sistemov odločanja in ukrepov. Kaj je naslednje najboljše dejanje? Torej veste, da se modri puloverji bolje prodajajo v Michiganu. Sedite na tonu modrih puloverjev v Alabami. Očitno je, da: "Pa, dajmo to odpremiti tja." Kako to storimo? Kaj je naslednji korak? Kako to vrnemo nazaj? Mogoče je naslednje najboljše dejanje, morda je predlog, morda je nekaj, kar vam pomaga preprečiti težavo, morda tudi ni ukrepanje, kar je samo dejanje. Tako začnemo videti tovrstne vzorce. In lepota tega v tem, kar govoriš o trgovinah s ključnimi vrednostmi, Robin, je v tem, da se dogaja tako hitro. Zgodi se tako, kot da o tem nismo razmišljali.

Verjetno bi rekel v zadnjih petih letih, ko smo se pobrali. Začeli smo razmišljati v smislu, kako lahko spet izkoristimo prodajalne s ključnimi vrednostmi, toda šele v zadnjih petih letih ljudje na to gledajo zelo drugače in kot da se tehnološki cikli ponavljajo v 40-letnih vzorcih, tako da je to prijazno zabavne stvari, kjer gledamo na oblak in Im tako kot deljenje časa z mainframeom. Ogledamo si Hadoop in podobno trgovino s ključnimi vrednostmi - morda gre za podatkovno mapo, manj kot za shranjevanje podatkov -, zato začnemo znova videti te vzorce. Tisto, kar poskušam storiti, je, da pomislim, kaj so ljudje počeli pred 40 leti? Kateri pristopi in tehnike in metodologije so se uporabljali, ki so jih omejile tehnologije, ki so jih ljudje imeli? To je nekako gonilo tega miselnega procesa. Ko gremo skozi širšo sliko Hadoopa kot orodja, ko se vrnemo nazaj in razmišljamo o poslovnih posledicah, je to nekakšna pot, ki jo ljudje običajno prehodimo, tako da lahko vidite, katere dele, katere dele so v podatkih pot odločitev. To je samo nekaj, kar sem želel deliti. To je nekako razmišljanje, ki ga uporabljamo notranje in upam, da dodaja k razpravi. Torej, vrnil ti ga bom, Eric.

Eric Kavanagh: To je fantastično. Če se lahko držite za kaj vprašanj. Všeč mi je bilo, da ste ga ponovno prevzeli na poslovno raven, ker na koncu dneva gre za posel. Vse je v tem, da se stvari lotijo in poskrbite, da boste denar porabili pametno in to je eno od vprašanj, ki sem ga že videl, zato bodo govorci morda želeli razmisliti, kaj je TCL za Hadoop pot. Vmes je nekaj dobrega, na primer z uporabo orodij za pisarniške police, da stvari počnete na nek tradicionalen način in z uporabo novih sklopov orodij, ker še enkrat, premislite, veliko teh stvari ni novo, ampak je le nekakšno Po prepričanju je najboljši način, da se to združi.

Torej, pojdimo naprej in predstavimo našega prijatelja Nikito Ivanov. Je ustanovitelj in izvršni direktor GridGain. Nikita, šel bom naprej in ti izročil ključe in verjamem, da si tam. Me slišiš Nikita?

Nikita Ivanov: Da, tukaj sem.

Eric Kavanagh: Odlično. Torej, tla so vaša. Kliknite na to diapozitiv. Uporabite puščico navzdol in jo odnesite. Pet minut.

Nikita Ivanov: Na kateri diapozitiv kliknem?

Eric Kavanagh: Samo kliknite kjer koli na ta drsnik in za premikanje uporabite puščico navzdol na tipkovnici. Samo kliknite na drsnik in uporabite puščico navzdol.

Nikita Ivanov: V redu, torej le nekaj hitrih diapozitivov o GridGainu. Kaj naredimo v okviru tega pogovora? GridGain v osnovi proizvaja računalniško programsko opremo v pomnilniku, del platforme, ki smo jo razvili, pa je pospeševalec Hadoop v pomnilniku. Glede Hadoopa smo ponavadi o sebi razmišljali kot o Hadoopovih strokovnjakih. Kar počnemo v bistvu na naši osnovni računalniški platformi v pomnilniku, ki je sestavljena iz tehnologij, kot so podatkovno omrežje, pomnilniško pretakanje in računalniške mreže, bi lahko vključili pospeševalnik Hadoop. To je zelo preprosto. Lepo bi bilo, če bomo razvili nekakšno rešitev plug-and-play, ki jo je mogoče namestiti prav v namestitvi Hadoop. Če vi, razvijalec MapReduce, potrebujete spodbudo, ne da bi morali napisati novo programsko opremo ali spremeniti kodo ali spremeniti ali v bistvu spremeniti vse minimalne konfiguracije v skupini Hadoop. To smo razvili.

V osnovi memorijski pospeševalnik Hadoop temelji na optimizaciji dveh komponent v ekosistemu Hadoop. Če pomislite na Hadoop, ta temelji predvsem na HDFS, ki je datotečni sistem. MapReduce, ki je okvir za izvajanje tekmovanj vzporedno na datotečnem sistemu. Da bi optimizirali Hadoop, optimiziramo oba sistema. Razvili smo datotečni sistem v pomnilniku, ki je popolnoma združljiv, 100% združljiv plug-and-play, s HDFS. Lahko tečete namesto HDFS, lahko tečete na vrhu HDFS. Razvili smo tudi MapReduce v pomnilniku, ki je plug-and-play združljiv s Hadoop MapReduce, vendar je veliko optimizacij, kako poteka pretok dela MapReduce in kako deluje urnik na MapReduce.

Če pogledate na primer na ta diapozitiv, kjer prikazujemo vrsto podvajanja. Na levi strani imate svoj značilni operacijski sistem z GDM, na vrhu tega diagrama pa aplikacijski center. Na sredini imaš Hadoop. In Hadoop spet temelji na HDFS in MapReduce. Torej, to na tem diagramu predstavlja, da tisto, kar smo nekako vdelali v Hadoop sklad. Spet je to plug-and-play; vam ni treba spremeniti nobene kode. Samo deluje na enak način. Na naslednjem diapozitivu smo v bistvu prikazali, kako smo optimizirali potek dela MapReduce. To je verjetno najbolj zanimiv del, ker vam daje največ prednosti, ko zaženete opravila MapReduce.

Običajni MapReduce, ko oddate opravilo, in na levi strani je diagram, obstaja običajna aplikacija. Običajno oddajate delo in gre v sledilnik. Interakcija je z vozliščem imena Hadoop in ime vozlišče je pravzaprav del programske opreme, ki upravlja interakcijo z digitalnimi datotekami, in nekako vodi imenik datotek, nato pa sledilnik opravil sodeluje s sledilnikom opravil na vsakem posameznem vozlišču in sledilnik opravil sodeluje s podatkovnim vozliščem Hadoop za pridobivanje podatkov. To je v bistvu zelo pregleden pregled na visoki ravni, kako vaše delo MapReduce pride v računalnike. Kot vidite, kaj počnemo s svojim spominom, bo Hadoop MapReduce že v celoti zaobšel ves ta zapleteni razpored, ki vam bo vzel veliko časa, in odšel neposredno od odjemalca do podatkovnega vozlišča GridGain in GridGain podatkovno vozlišče ohranja vse to pomnilnik za očitno hitro, hitro izvedbo.

Torej v celoti omogočamo, da doseže od 5-krat navzgor vse do 100-kratnega povečanja zmogljivosti pri določenih vrstah obremenitev, še posebej za kratke letne obremenitve, pri katerih dobesedno merite vsako sekundo. Lahko vam damo dramatično povečanje zmogljivosti, tako da se dobesedno ne spremenijo jedro.

V redu, to je vse zame.

Eric Kavanagh: Da, upoštevajte vprašanja in vprašanja. Brez dvoma.

Naj jo izročim Johnu Santaferraru. John, samo klikni ta drsnik. Če želite nadaljevati, uporabite puščico navzdol.

John Santaferraro: V redu. Najlepša hvala, Eric.

Moja perspektiva in Actianovo stališče je res, da Hadoop resnično ustvarja vrednost, zato je to primer iz digitalnih medijev. Veliko podatkov, ki se zdaj pretakajo v Hadoop, ima povezavo z digitalnimi mediji, digitalnim marketingom in strankami, zato obstaja velika priložnost - prihodnje leto bo prek spleta opravljenih 226 milijard dolarjev maloprodajnih nakupov. Big data in Hadoop je namenjen zajemanju novih podatkov, da bi vam omogočil vpogled v svoj delež tega.Kako dosežete 14% večji tržni donos in dobiček, ki temelji na ugotovitvi pravega medija X in pravih kanalov ter pravega digitalnega marketinškega načrta? Kako izboljšate celoten donos od tržnih naložb? Mimogrede, v letu 2017 bi morali razmišljati o Hadoopu, dejstvo, da bo CMO, glavni direktor marketinga, porabo v letu 2017 presegel porabo za IT in tako resnično gre za gonilno vrednost. Naše mnenje je, da na levi strani tega diagrama nastajajo vse vrste hrupa, podatki pa se pretakajo v Hadoop.

Naše stranke želijo končno ustvariti zadovoljstvo strank, konkurenčno prednost, obvladovanje tveganj na svetovni ravni, moteče nove poslovne modele in narediti vse to za dosego transformacijske vrednosti. Želijo si zajeti vse te podatke v Hadoop-u in biti sposobni brez kakršnih koli omejitev narediti najboljše stvari v svojem razredu, kot je odkrivanje teh podatkov, brez zamud pri poljubnem obsegu podatkov, ki živijo tam - prehaja iz reaktivnega na drugo napovedne vrste analitike in početje vse dinamično, namesto da bi podatke gledali ravno kot statične. Kaj se vlije v Hadoop? Kako to analizirate, ko prispe? Kam jo postavite, da dobite visokozmogljivo analitiko? In na koncu vse premaknemo na delček enega.

Torej, kar smo storili pri Actianu v platformi Actian Analytics, smo zgradili eksoskelet okrog Hadoopa, da bi mu dali vse te zmogljivosti, ki jih potrebujete, da se boste lahko povezali s katerim koli virom podatkov, ki ga prinaša v Hadoop, in ga dostavite kot podatkovne storitve, kjer koli jo potrebujete. Imamo knjižnice analitike in mešanja podatkov ter vrste obogatitve podatkov, ki jih dobesedno povlečete in spustite, tako da lahko sestavite te podatke in analitične delovne tokove, in ne da bi kdajkoli naredili kakršno koli programiranje, bomo to obremenitev prek YARN potisnili desno na vozlišča Hadoop, tako da lahko na Hadoopu izvirno preučujete visokozmogljive podatke o podatkih. Torej vse vaše podatke o pripravi podatkov, vsa vaša podatkovna informacija, ki se dogaja na Hadoopu, je zelo vzporedna, zelo optimizirana, zelo zmogljiva in nato, ko to morate, s hitro hitro povezavo premaknete v desno do našega visokozmogljivega analitičnega motorja , kjer lahko naredite zelo nizke vrste zamudnosti analitike in vse to, ki te analitike v realnem času posredujete uporabnikom, vrste komunikacije med strojem in strojem in stavite na analitiko in poslovne procese, hranite velike podatke aplikacije ali aplikacije.

To je primer telco churna, kjer na vrhu tabele, če na primer samo gradite telco churn, kjer ste zajeli eno vrsto podatkov in jih vlili v Hadoop, bi lahko ugotovil približno 5% vašega potencialnega glasbenega občinstva. Ko premikate ta grafikon navzdol in dodate dodatne vrste virov podatkov, v tem sredinskem stolpcu opravljate bolj zapletene vrste analitike. Omogoča vam, da se proti tej glavi učinkujete na način, ki vam omogoča identifikacijo. Premaknete se od 5% do 70% identifikacije. Tako za telekomunikacijska podjetja, za maloprodajne organizacije, za katere koli hitre ponudnike, vse, ki imajo bazo strank, kadar obstaja strah in škoda, ki jo povzroči trganje.

Tovrstna analitika, ki deluje na tej različici Hadoop, ki podpira eksoskelete, je tisto, kar prinaša resnično vrednost. Tu lahko vidite tovrstno vrednost. To je primer, vzet iz letnega poročila telekomunikacijske družbe, ki prikazuje njihove dejanske skupne naročnike, 32 milijonov. Njihova obstoječa stopnja trnja, o kateri vsak telco poroča 1,14, 4,3 milijona naročnikov izgubi vsako leto, kar jih je stalo 1,14 milijarde dolarjev in 2,1 milijarde prihodkov. To je zelo skromen primer, kako ustvarjate vrednost iz svojih podatkov, ki živijo v Hadoopu, kjer vidite potencialne stroške ponovne nabave, kjer je potencial, da Hadoop uporabi analitiko, ki deluje na eksoskeletu, da v bistvu pomaga temu telekomunikacijskemu podjetju prihraniti 160 milijonov dolarjev, pa tudi 294 milijonov izgube. Takšen primer mislimo, da Hadoop poganja naprej.

Eric Kavangh: V redu, fantastično. Jim, pa naj grem naprej in ti dam ključe. Torej, Jim Vogt. Če bi kliknili ta drsnik in uporabili puščico navzdol na tipkovnici.

Jim Vogt: Razumel sem. Dobra slika. OK, najlepša hvala. Bom povedal malo o Zettasetu. Vse popoldne smo tukaj govorili o Hadoopu. Pri našem podjetju je zanimivo to, da v bistvu preživimo kariero, s čimer utrjujemo novo tehnologijo za podjetje - če lahko, če boste, v naši novi tehnologiji priključimo vrzeli, da ji omogočimo široko uporabo v našem operativnem okolju podjetja. Na trgu se trenutno dogaja nekaj stvari. Je kot velika zabava na odprtem bazenu, kajne? Toda zdaj so se starši vrnili domov. In v bistvu poskušamo to stvar vrniti v neko resničnost glede na to, kako tukaj zgradite pravi del infrastrukture, ki je lahko razširljiv, ponovljiv, neintenziven in varen, kar je najpomembnejše. Na trgu danes večina ljudi še vedno preverja pnevmatike na Hadoopu. Glavni razlog je, da obstaja nekaj stvari. Eno je, da v samem odprtokodnem izvoru, čeprav počne nekaj zelo koristnih stvari v smislu, da lahko kombiniramo vire podatkov, da lahko najdemo strukturne podatke in zelo koristne vire podatkov, resnično primanjkuje za veliko kaljenih in podjetniških funkcij okrog varnosti, večje razpoložljivosti in ponovljivosti, ki jo ljudje potrebujejo za razporeditev ne le 10- ali 20-vozliškega grozda, temveč grozda z 2.000 in 20.000 vozlišč - obstaja več skupin. Kar je bilo v zadnjih dveh letih zasluženo v glavnem, se je v glavnem ukvarjalo z ustanavljanjem teh skupin eval. Torej obstaja postopek, ki ga ni mogoče ponoviti s programsko opremo, da bi to dejansko aktivno uporabili na trgu.

Torej, kar smo vgradili v našo programsko opremo, je nekaj stvari. Pravzaprav smo pregledni v distribucijah. Na koncu dneva nam je vseeno, če je CVH ali HDP, vse je open source. Če pogledate surove komponente Apache, ki so ustvarile te distribucije, res ni razloga, da bi se morali zapreti v katero koli distribucijo. In tako delamo po distribucijah.

Druga stvar je, da vrzeli pregledno zapolnimo nekatere stvari, ki manjkajo znotraj same kode, odprtokodne kode. Pa smo se pogovarjali o HA. HA je odlična v smislu, da ne pride do preklapljanja, toda kaj se zgodi, če kateri od aktivnih procesov, ki jih postavljate v te grozde, ne uspe? To bi lahko odneslo dol ali ustvarilo varnostno luknjo, če hočete. Ko smo v našo rešitev vgradili komponente programske opreme, vse spadajo pod okrilje HA, kjer aktivno spremljamo vse procese, ki potekajo v grozdu. Če se kode vloge zmanjšajo, gručo spustite navzdol, tako da v bistvu pomeni, da ni nobenega preklopa veliko, razen če aktivno spremljate vse procese, ki se izvajajo v grozdu, nimate pravega HA. In to je bistvenega pomena za to, kar smo razvili tukaj na Zettasetu. In na tak način smo dejansko dobili patent, ki je bil izdan na tem in dodeljen novembra novembra, približno ta pristop HA, ki je čisto nov in drugačen od odprtokodne različice in je za podjetje veliko bolj zakrčen.

Drugi komad lahko naredi pravi RBAC. Ljudje govorijo o RBAC-u. Govorijo o drugih odprtokodnih projektih. Zakaj bi morali znova ustvariti vse te vnose in vse te uporabnike in vloge, če že obstajajo v LDAP ali v aktivnem imeniku? Torej vse to pregledno povežemo in vse svoje procese zložimo ne samo pod tem dežnikom RBAC, ampak tudi pod dežnikom HA. Začnejo se širi v to šifriranje infrastrukture, šifriranje v mirovanju podatkov, stanje gibanja, vsi utrjeni varnostni deli, ki jih resnično potrebujete za zaščito podatkov.

V resnici to vodijo naše industrije, ki jih imam na naslednjem diapozitivu, ki prinašajo financiranje in zdravstveno varstvo ter imajo naše usklajenosti. Ta sklop podatkov moraš biti sposoben varovati in moraš biti zmožen zelo dinamično, ker lahko ti podatki sedijo kjer koli v teh vzporednih vozliščih in grozdih in se lahko podvajajo in tako naprej, tako da je v bistvu to velik dežnik, ki smo ga zgradili. Zadnji kos, ki ga ljudje potrebujejo, je, da lahko koščke sestavi. Torej, če imamo analitike, s katerimi se je John pogovarjal, in da lahko pridobimo vrednost iz podatkov, in to z odprtim vmesnikom, ki je vpet v to infrastrukturo, to je tisto, kar smo vgradili v našo programsko opremo.

Torej, trije primeri, ki sem jih imel tukaj, in vi me potujete, so bili resnično okoli financ, zdravstva in tudi oblaka, kjer se morate spoprijeti z okoljem z več najemniki in v bistvu morate ločevati občutljive podatke ljudi, varnost in zmogljivost sta ključni pri tej vrsti aplikacij, ne glede na to, ali je v oblaku ali v občutljivem podatkovnem okolju.

Zadnji diapozitiv se resnično pogovarja s to infrastrukturo, ki jo sestavljamo kot podjetje, ni specifičen samo za Hadoop. To je nekaj, kar lahko enako uporabimo tudi za druge tehnologije NoSQL, zato naše podjetje napreduje naprej. Nato bomo uporabili tudi druge odprtokodne komponente, HBase in tako naprej, in jih zavarovali znotraj te infrastrukture na način, da niste vezani na nobeno distribucijo. Kot da resnično imate odprto, varno in zanesljivo infrastrukturo za podjetje. Torej, to je tisto, kar počnemo, da v bistvu pospešimo usvajanje Hadoopa, tako da se ljudje oddaljijo od skupkov dvajsetih vozlišč in dejansko dobijo zaupanje, da zaposlijo veliko večje okolje, ki je več pozornosti na Hadoop in pospeši tržiti skupaj. Hvala vam.

Eric Kavanagh: To je fantastično, super. Oglejte si vprašanja in vprašanja. Nenazadnje imamo Phu Hoanga, izvršnega direktorja DataTorrent-a. Naj grem naprej in vam izročim ključe. Ključi so zdaj vaši. Kliknite kjer koli na drsniku in jih premikajte po puščici navzdol na tipkovnici.

Phu Hoang: Najlepša hvala.

Torej, da, tu sem, da govorim o DataTorrentu in pravzaprav mislim, da je zgodba o DataTorrentu odličen primer tega, o čemer sta Robin in Ray govorila skozi to sejo, kjer pravijo, da je Hadoop odličen del dela, odličen temelj . Ima pa veliko ciljev. Toda prihodnost je svetla, saj je ekosistem Hadoop, v katerega prihaja več igralcev, sposoben zgraditi in dodati vrednost na tem temelju, da ga resnično pripelje od shranjevanja do vpogleda v dejanje, in res je to zgodba DataTorrent-a.

To, o čemer bom danes govoril, je resnično v velikem obsegu za obdelavo podatkov. Medtem ko komuniciram s strankami, še nikoli nisem srečal nobene stranke, ki bi mi rekla: "Hej, moj cilj je ukrepati ure ali dni po prihodu mojih poslovnih dogodkov." Pravzaprav vsi pravijo, da želijo ukrepati takoj po dogodkih. Težava z zamudo je, da je to Hadoop danes s svojo paradigmo MapReduce. Če želite razumeti, zakaj je vredno pregledati Hadoop zgodovino.

Večino Yahoo inženiringa sem vodil, ko smo najeli Douga Cuttinga, ustvarjalca Hadoopa, in dodelil več kot sto inženirjem, ki bodo izdelali Hadoop, da bi poganjali naše spletno iskanje, oglaševanje in obdelavo podatkov. Toda Hadoop je bil zgrajen res kot hrbtni sistem za branje in pisanje in obdelavo teh zelo velikih datotek. Čeprav je to velika moteča tehnologija zaradi svoje velike razširljivosti in visoke sposobnosti brez stroškov, ima luknjo v tem, da je za obdelavo teh velikih datotek veliko zamud. Zdaj je pošteno reči, da Hadoop zdaj postaja visoki operacijski sistem, ki je resnično računalniški in dobiva široko uveljavitev v številnih podjetjih. Še vedno uporabljajo isti postopek zbiranja dogodkov v velike datoteke in zaženejo ta paketna opravila Hadoop, da bi prišli tja naslednji dan. Zdaj si podjetniški kupci želijo, da si želijo povsem enake vpoglede, vendar želijo graditi, da dobijo ta vpogled veliko prej, kar jim bo omogočilo, da bodo resnično ravnali na teh dogodkih, kot se dogaja dogodek, ne pa morda več ur kasneje, ko je bil nazaj obdelano.

Eric Kavanagh: Ali želite premikati svoje diapozitive samo iz radovednosti?

Phu Hoang: Ja, prihaja zdaj. Naj ponazorim s tem primerom. V tem primeru lahko s pomočjo Hadoopa v zaklonu, kjer nenehno sodelujete z datotekami, najprej organizacija lahko zbere vse dogodke za cel dan, 24 ur vredne podatkov. Nato jih obdelajo v paketu, kar lahko traja še osem ur z uporabo MapReduce, tako da je zdaj minilo 32 ur, preden dobijo kakršen koli vpogled. Toda s predelavo tokov v realnem času dogodki prihajajo in se takoj obdelujejo, ni časa kopičenja. Ker vse to obdelamo, vse v pomnilniku, je tudi obdelava v pomnilniku podsekunda. Ves čas skrajšate pretečeni čas na 30 ur plus na nekaj, kar je zelo malo. Če zmanjšate 30 ur na 10 ur, je to dragoceno, če pa lahko zmanjšamo na sekundo, se zgodi nekaj globokega. Zdaj lahko ukrepate na svojem dogodku, medtem ko se dogodek še vedno dogaja, kar podjetjem omogoča razumevanje, kaj počnejo njihovi izdelki, kaj počne njihov posel, kaj počnejo njihovi uporabniki v realnem času in nanj reagirajo.

Oglejmo si, kako se to dogaja. V resnici je kombinacija tržnih sil in tehnologije omogočila, da se rešitev, kot je DataTorrent, združi, tako da s tržnega vidika Hadoop resnično postaja dejansko velika podatkovna arhitektura, kot smo rekli, kajne? V študiji IDC iz leta 2013 pravijo, da bi do konca tega leta dve tretjini podjetij namestile Hadoop in za DataTorrent, ne glede na to, ali gre za Apache Hadoop ali katerega od naših certificiranih partnerjev, kot sta Cloudera ali Hortonworks, Hadoop je res jasno izbira za podjetje. S tehnološkega vidika in mislim, da sta Robin in Ray na to aludirala, je bil Hadoop 2.0 zasnovan tako, da je Hadoop resnično omogočil razširitev na veliko bolj splošne primere kot paradigma paketa MapReduce in moj soustanovitelj Amal, ki je v Yahooju vodil razvoj Hadoop 2.0 resnično omogoča, da ima ta plast OS še več računskih paradigem in je v tem času izbrano pretakanje v realnem času. Če postavite to plast pretakanja v realnem času na vrh YARN, lahko DataTorrent resnično pomislite kot ekvivalent MapReduce v realnem času. Karkoli lahko storite v paketu s MapReduce, zdaj lahko storite v pretakanju z DataTorrentom in lahko obdelujemo ogromno količino podatkov. Podatke lahko razrežemo in kockamo v več dimenzijah. Razdeljevali smo računalništvo in YARN uporabljamo za vire. Imamo celoten ekosistem odprtega koda Hadoop, ki omogoča hiter razvoj aplikacij.

Naj se malo pogovorim o aktivnih zmožnostih DataTorrent. V petih minutah mi je težko kaj podrobneje dati, vendar naj le razpravim in ponovno razlikujem. Najprej skalabilno zaužitje pod sekundami, kajne? To se nanaša na platformo DataTorrent, da lahko v realnem času to prevzame iz več sto podatkov in jih začne takoj obdelati. Ta je v neposrednem stiku z zadnjo obdelavo MapReduce, ki je v Hadoopu 1.0, in dogodki se lahko razlikujejo po velikosti. Morda so preprosti kot vrstica v dnevniški datoteki ali pa so veliko bolj zapleteni, kot je CDR, zapis podatkov o klicih v telekomunikacijski industriji. DataTorrent lahko zaužitje dinamično spreminja navzgor ali navzdol, odvisno od dohodne obremenitve, z več deset milijoni dohodnih dogodkov na sekundo. Druga pomembna stvar je seveda sama obdelava, ki je v logiki ETL v realnem času. Ko bodo podatki v gibanju, gremo v logiko ETL, kjer izvajate preobrazbo in nalaganje skladov in podobno. In logika se res izvaja s kombiniranjem niza tega, čemur pravimo operaterji, povezani v pretoku podatkov. Danes vam ponujamo odprtokodno kodo več kot 400 operaterjev, ki vam omogočajo hitro gradnjo aplikacij. Zajemajo vse, od vhodnih konektorjev do vseh vrst procesov do gonilnikov baz podatkov in konektorjev, kamor boste morali naložiti vse vrste informacij, da jih prekinete.

Kombinacija vsega tega v pomnilniku in gradnje obsega na stotine vozlišč resnično prinaša vrhunske zmogljivosti. DataTorrent lahko obdela več milijard dogodkov na sekundo z zakasnitvijo v sekundi.

Zadnji kos, ki ga želim izpostaviti, je arhitektura visoke razpoložljivosti. Platforma DataTorrent je v celoti objavljena; to pomeni, da platforma samodejno shrani dogodek in redno preverja stanje operaterjev na disku, da prepreči morebitne težave. Aplikacije vam lahko sporočijo v nekaj sekundah brez dnevnika podatkov in brez človeškega posredovanja. Preprosto povedano, podatkovni obrazec v nekaj sekundah obdela več milijard dogodkov in razporedi podatke, teče 24/7 in nikoli več ne pade. Zmogljivosti DataTorrent resnično ločijo od trga in ga resnično predstavljajo vodilno, kritično, analitično platformo v realnem času za podjetja. S tem vas vabimo, da obiščete našo spletno stran in nas preverite.

Hvala.

Eric Kavanagh: Ja, hvala lepa. Bom poslal vprašanje, res komentar, in vam nekaj pojasniti. Resnično mislim, da ste tukaj v prednosti s tem konceptom prenosa teh operaterjev in omogočanjem ljudem, da uporabljajo te operaterje skoraj kot Legos za izdelavo velikih podatkovnih aplikacij. Lahko nekako spregovorite o tem, kaj gre v postopek, ko te operaterje vzamete in zlepite, kako to dejansko storite?

Phu Hoang: To je odlično vprašanje. Najprej so ti operaterji v vaši standardni aplikaciji Java Logic. Nabavljamo jih 400. Izvajajo vse vrste obdelave in tako, da zgradite vašo aplikacijo, dejansko samo povezujete operaterje v graf pretoka podatkov. Pri naših kupcih ugotavljamo, da uporabljajo številne operaterje, ki jih imamo v naši knjižnici, in tudi sami prevzamejo svoje delo po logiki po meri in ga postavijo za operaterja, tako da to lahko utemeljijo v grafu.

Eric Kavanagh: V redu, dobro. Mislim, da je dobro pripeljati Johna Santaferraro iz Actiana, ker se vam zdi, da imate podoben pristop pri odpiranju neke vrste vodstvenega sloja, da bi se lahko igrali z različnimi operaterji. Lahko govoriš o tem, kaj počneš glede orodij, o katerih pravkar govorimo, John?

John Santaferraro: Ja, točno tako. Imamo knjižnico analitičnih operaterjev, pa tudi transformacijskih operaterjev, operaterjev za mešanje in obogatitev podatkov in je zelo podoben. Uporabite vmesnik povleci in spusti, da lahko združite te tokove podatkov ali delovne tokove in celo analitične delovne tokove. Torej je vse, od tega, da se lahko povežemo s podatki, da lahko mešamo in obogatimo podatke, da lahko izvajamo algoritme za znanost podatkov ali strojno učenje in nato celo to potisnemo v visokozmogljiv analitični motor z nizko zamudo. Ugotovimo, da je vse skupaj zgrajeno na projektu odprtokodnih devet.Tako zajamemo veliko operaterjev, ki jih razvijajo, in nato vzamemo vse to, in preko YARN, zelo podobnega, kot je Phu opisal v DataTorrentu, to potisnemo navzdol, tako da je vzporeden z vsemi vozlišči v Hadoopu grozd. Veliko gre za to, da bodo podatki v Hadoopu veliko bolj dostopni poslovnim uporabnikom in manj kvalificiranim delavcem, še kdo poleg podatkovnega znanstvenika.

Eric Kavanagh: V redu, naj še enkrat pripeljem Nikito. Tudi jaz bom vrgel vaše petice. Se lahko nekako pogovarjate o tem, kako pristopite k tej rešitvi glede na to, o čemer sta ta dva gospoda ravno govorila? Kako nekdo te stvari dejansko sestavi in izkoristi od GridGain?

Nikita Ivanov: Mislim, da je največja razlika med nami in praktično ostalimi v tem, da ne zahtevamo, da snemate - ne morate storiti ničesar, to je plug-and-play. Če imate danes aplikacijo, bo delovala hitreje. Ni vam treba spremeniti kode; vam ni treba storiti ničesar; preprosto morate namestiti GridGain ob strani grozda Hadoop in to je to. To je največja razlika in pogovorili smo se s strankami. Danes vas čaka nekaj sprememb: programiranje, delovanje API-ja, uporaba vmesnikov in kaj podobnega. Naša je zelo preprosta. Ni vam treba vlagati veliko časa v ekosistem Hadoop in karkoli že uporabljate, MapReduce ali katero koli orodje še naprej uporabljate. Z GridGain vam ni treba spremeniti nobene vrstice kode, temveč bo delovala hitreje. To je največja razlika in največja za nas.

Eric Kavanagh: Tudi tukaj se vrne Jim. Jim, tvoj citat me ubija. Vmes sem ga moral zapisati. Postavil jo bom v nekakšno palubo, vendar je ekosistem Hadoop trenutno kot zabava v bazenu in starši so se ravno vrnili domov. To je človek smešno; to je sijajno. Lahko kakšno besedo o tem, kako pridete na sceno? Kako to dejansko izvajate? Kako dolgo to traja? Kako vse to deluje?

Jim Kaskade: Da. Odvisno od ciljne stranke je nekaj vrst, običajno pa danes v nekaterih teh zahtevah utrjevanja, o katerih sem govoril, vidite ocene, v katerih se upošteva varnost. Kar se je zgodilo v nekaterih drugih primerih, zlasti lani, ko so ljudje imeli velike načrte za uvedbo, je, da je obstajal nekakšen znanstveni projekt, če se želite, ali pa se je kdo igral s tehnologijo in je imel gručo in je deloval in bil dela z njim, toda potem se pokaže varnostnik in če bo šel v podatkovni center v živo, mora v bistvu izpolnjevati iste zahteve, ki jih imamo za drugo opremo, ki deluje v podatkovnem centru, če bo biti infrastruktura, ki jo gradimo. Lani smo imeli celo nekaj bank, ki so nam sporočile, da bodo lani namestile od 400 do 1.000 vozlišč in še vedno sedijo na 20-vozliškem grozdu predvsem zato, ker je zdaj vključena varnostnica. Morali so biti zaskrbljeni o finančni skladnosti, o skupinah informacij, ki sedijo v grozdu, in tako naprej. Razlikuje se od kupca, vendar je to običajno tisto, kar podaljša cikle, in to je značilno za novo tehnologijo, kjer, če to resnično želite namestiti v proizvodnem okolju, mora imeti nekaj teh kosov, vključno z zelo dragocenimi odprtimi - viri, kajne?

Eric Kavanagh: V redu, dobro. Pa poglejmo. Tu bom vrnil Phu v enačbo. Za vas imamo dobro vprašanje. Eden od udeležencev se sprašuje, kako se DataTorrent razlikuje od Storma ali Kafke ali od infrastrukture Redis. Phu, si že tam? Hej, Phu, me slišiš? Mogoče sem nem.

Vrnimo Ray Wang k temu. Ray, videl si veliko teh tehnologij in si ogledal, kako delujejo. Resnično obožujem ta koncept prenosa nadzora ali nadzora nad končnimi uporabniki operaterjev. Rad o njih razmišljam kot o resnično močnih Legovih, ki jih lahko uporabijo za sestavljanje nekaterih teh aplikacij. Lahko to komentirate? Kaj misliš o vsem tem?

Ray Wang: Če izhajam iz svojega tehničnega znanja, rečem, da me je strah - prestrašen sem bil brez sranja! Iskreno, mislim, da je pomembno, da bi dosegli obseg. Ni tako, da lahko postavite samo toliko zahtev. Pomislite na stari način shranjevanja podatkov. V poslu sem moral vložiti zahtevo za poročilo, da bi se lahko ujemale z vsemi shemami. Mislim, smešno. Torej moramo priti do poslovne strani hiše in zagotovo postati podatkovni šalterji. Pravzaprav mislimo, da bomo v tem svetu videli več digitalnih umetnikov in ljudi, ki imajo prave spretnosti, ampak tudi razumejo, kako te podatke sprejeti in prevesti v poslovno vrednost. In tako bodo ti digitalni obrtniki, obrtniki podatkov, odvisno od tega, kako gledate na to, potrebovali resnično tako, da bodo najprej imeli radovednost in pravi nabor vprašanj, pa tudi znanje, kako vedeti, kdaj nabor podatkov smrdi. Če dobim lažno pozitivno ali lažno negativno, zakaj se to dogaja?

Mislim, da je potrebna osnovna raven statistike, osnovna raven analitike, če razumemo, da bo potrebno nekaj usposabljanja. Mislim pa, da ne bo pretežko. Mislim, da če najdeš prave ljudi, bi se to lahko zgodilo. Ne morete demokratizirati celotnega postopka odločanja. Vidim, da se to dogaja. To vidimo v številnih podjetjih. Nekateri to počnejo stranke finančnih storitev. Nekateri naši maloprodajni ljudje to počnejo, še posebej na robu tankih britvic, ki jih vidite v trgovini na drobno. Definitivno sem to videl v visokotehnoloških tehnologijah tukaj v dolini. Takšni so ljudje. Tako se pojavlja, vendar bo trajalo nekaj časa, ker teh osnovnih podatkovnih znanj še vedno primanjkuje. In mislim, da moramo to združiti z nekaterimi stvarmi, ki jih nekateri od teh fantov počnejo tukaj na tem spletnem seminarju.

Eric Kavanagh: Torej, navajate res dobro stvar. Všeč je, koliko nadzora želite dati povprečnemu končnemu uporabniku. Nočete dajati pilotske kabine nekomu, ki vozi avtomobil prvič. Želite imeti možnost, da natančno nadzorujete, nad čim imajo nadzor. Predpostavljam, da moje navdušenje izvira iz tega, da lahko sami naredite stvari, toda ključno je, da morate v to kabino postaviti pravo osebo. Morate imeti nekoga, ki resnično ve, kaj počnejo. Ne glede na to, kaj slišite ljudje prodajalcev, ko so močnejša orodja nekoga izjemno kompleksna, mislim, če govorite o sestavljanju niza 13, 14, 15 operaterjev, ki bodo naredili določeno vrsto preobrazbe vaših podatkov, tam ni veliko ljudi, ki bi to lahko naredili dobro. Mislim, da bomo imeli veliko, veliko več ljudi, ki to počnejo dobro, ker so orodja zdaj tam zunaj in se lahko igrate s stvarmi, zato bo potreben nagon, da lahko izpopolnimo ta postopek ali vsaj pridi v tem.

Phu smo dejansko izgubili, toda zdaj se je vrnil. Torej, Phu, vprašanje zate je, kako se DataTorrent razlikuje od, na primer, Storma ali Kafke ali Redisa ali nekaterih drugih?

Phu Hoang: Mislim, da je to veliko vprašanje. Torej, Redis je seveda res shramba podatkov v spominu in povežemo se z Redisom. Sami sebe doživljamo kot resnično predelavo podatkov, pretakanje podatkov. Kafka je spet odličen avtobus za sporočila, ki ga uporabljamo. To je pravzaprav eden izmed naših najljubših vodij za sporočila, toda nekdo mora opraviti obsežno obdelavo podatkov na več sto vozlišč, ki so odporne na napake, to je razširljivo, in to ponavljam kot delo, ki ga igramo. Torej, da, podobni smo viharju, ampak mislim, da se je Storm res razvil že davno pred Hadoopom in na ravni podjetja ne razmišlja o razširljivosti na stotine in milijone, zdaj celo na milijarde dogodkov prav tako nima sposobnosti HA, ki je po mojem mnenju potrebna.

Eric Kavanagh: Super. In če veste o HA, bom to uporabil kot izgovor, da v pogovor vrnem Robina Bloorja. Prav včeraj smo govorili o tem. Kaj mislite z visoko razpoložljivostjo? Kaj mislite s krivdo toleranco? Kaj mislite na primer v realnem času? To so izrazi, ki jih je mogoče upogniti. Ves čas to vidimo v svetu podjetniške tehnologije. To je dober izraz, da drugi ljudje glomijo in uporabljajo, se opirajo in premikajo, potem pa nenadoma stvari ne pomenijo čisto tistega, kar so včasih. Veste, Robin, eden od mojih ljubljenčkov je celotno vesolje VOIP. Je tako: "Zakaj bi se znižali kakovostno? Ali ni pomembno razumeti, kaj vam ljudje rečejo in zakaj je to pomembno?" Samo prosim vas, da komentirate, kaj mislite. Še vedno se smejim nad Rayovim komentarjem, da se prestrašeno prepušča tem ljudem. Kaj meniš o tem?

Ray Wang: Oh, mislim, da gre za človeka Spider-a, kajne? Z veliko močjo prihaja velika odgovornost. Res, kar se tiče zmogljivosti zunaj, mislim, da me je dejansko že dolgo nazaj spremenilo. Veste, svojim IT-jem bi dal nekaj zmogljivosti, ki so jih pridobili zdaj. Včasih smo delali izjemne količine, za kar bi rekel, da je to grdo delo, ki ga stroji opravljajo zdaj, in to vzporedno. Delajo stvari, ki si jih nikoli nismo mogli zamisliti. Mislim, da bi matematično razumeli, a si tega nikoli ne bi mogli predstavljati. Toda nekateri ljudje razumejo podatke in Ray je glede tega popolnoma prav. Razlog, da se prestrašimo, je, da bodo ljudje dejansko začeli dobivati napačne sklepe, da se bodo spopadli s podatki in bodo uporabili nekaj izjemno močnega in zdi se, da nekaj predlaga in bodo verjeli, ne da bi dejansko sploh zmogli kaj storiti enostavna, kot je kdo, ki dela revizijo, ali je njihov rezultat dejansko veljaven rezultat. Včasih smo to počeli v zavarovalnici, v kateri sem delal. Če je kdo kaj delal, nekdo vedno preveri. Vse je preverila vsaj ena oseba proti osebi, ki je to storila. Programska oprema je v teh okoljih izredno močna, vendar morate imeti pravilno disciplino, da jo lahko pravilno uporabljate. V nasprotnem primeru bodo pred spanjem solze, kajne?

Eric Kavanagh: Všeč mi je ta citat, to je super. Naj pogledam. Bom šel naprej in vrgel ravno za ta drsnik tukaj od GridGain, ali lahko govoriš, Nikita, ko prideš igrati, kako v resnici zaračunaš to aplikacijo? Mislim, razumem, kaj počnete, toda kako izgleda postopek, da vas dejansko vdela, da se vam stka in da se vse te stvari začnejo izvajati?

Nikita Ivanov: No, postopek je razmeroma preprost. V bistvu morate samo namestiti GridGain in narediti majhno spremembo konfiguracije, samo da Hadoop izve, da je HDFS zdaj, če želite uporabljati HDFS, in morate nastaviti, na kakšen način ga želite uporabljati. Mimogrede ga lahko dobite pri BigTopu. Verjetno je najlažji način namestitve, če uporabljate Hadoop. To je približno to. Z novo različico, ki bo prišla čez nekaj tednov, do konca maja, bomo morali še bolj poenostaviti postopek za to. Torej, vsa smisel Hadop pospeševalnika v spominu je, da ne šifrirate. Ne spreminjajte kode. Edino, kar morate storiti, je, da ga namestite in imate dovolj skupnega RAM-a v grozdu in brez njega, zato je postopek zelo preprost.

Eric Kavanagh: Naj vrnem Johna Santaferraroja nazaj. Vprašali bomo še nekaj vprašanj. Veste, John, fantje, seveda smo vas opazovali z različnih vidikov. Končali ste v PEAR Excel; ki se je zložil v Actian. Seveda se je Actian imenoval Ingres, vi pa ste naredili še nekaj drugih pridobitev. Kako šivate vse te stvari skupaj? Zavedam se, da se s tem morda ne želite preveč tehničariti, vendar imate zdaj veliko stvari. Imate Data Rush. Nisem prepričan, ali je to še vedno isto ime, vendar imaš cel kup različnih izdelkov, ki so bili nekako stkani skupaj, da so ustvarili to platformo. Govorite o tem, kaj se dogaja tam in kako se to dogaja.

John Santaferraro: Dobra novica je, Eric, da ločeno v podjetjih, ki smo jih pridobili Pervasive, PEAR Excel in tudi ko je Actian razvil, so vsi razvili svoj izdelek z zelo podobnimi arhitekturami. Številka ena so bili odprti glede podatkov in interakcije z drugimi platformami. Številka dve, vse je bilo paralelno, da se izvaja v porazdeljenem okolju. Številka tri, vse je bilo zelo optimizirano. To nam je omogočilo, da zelo hitro določimo integracijske točke, tako da lahko te tokove podatkov ustvarjate že danes. Vzpostavili smo integracijo, zato ustvarite pretok podatkov. Svoje podatke mešate in obogatite na Hadoopu, vse vzporedno, vse optimizirano. Ko želite, to premaknite v naše visoko zmogljive motorje. Potem je med Hadoopom in našim množično vzporednim analitičnim motorjem že dosežena visokozmogljiva povezava, ki počne te super-nizke zamude, kot je pomoč banki, da se vsaki dve minuti ponovno izračunajo in prenovijo celoten portfelj tveganj in to naložijo v naš trgovalni sistem v realnem času. ali ga vstavite v nekakšno namizje upravljavca premoženja, da se lahko odzovejo najdragocenejšim strankam v banki.

Te kose smo že sestavili. Potrebna je dodatna integracija. Toda danes imamo platformo Actian Analytics kot svojo ponudbo, saj je bilo veliko te integracije pripravljeno. To je že narejeno, zato združimo te kose skupaj, da bi vso to analitično vrednostno verigo povezovali podatke, vso obdelavo, ki jo počnete, kakršno koli analitiko, ki jo želite zagnati, in jo nato uporabiti za se vključite v te avtomatizirane poslovne procese, da boste sčasoma dejansko izboljšali to dejavnost. Vse je v tej končni platformi, ki obstaja že danes.

Eric Kavanagh: To so zelo dobre stvari. In verjetno, Jim, prinesem te še za nekaj komentarjev, Robin, pa bi te rad predstavil za samo eno veliko vprašanje. Ljudje, vsa ta vprašanja bomo ohranili - jih bomo posredovali ljudem, ki so danes sodelovali na dogodku. Če kdaj začutite, da na vprašanje, na katero ste zastavili, ni bilo odgovora, se resnično svobodite. Moral bi imeti nekaj informacij o meni in kako se umakniti od mene. Prav tako sem šele zdaj postavil povezavo do celotne palube s diapozitivi prodajalcev, ki niso sponzorji. Tako smo dali besedo vsem prodajalcem tam v celotnem prostoru Hadoop. Rekli smo: "Povejte nam, kaj je vaša zgodba; povejte nam, kaj se dogaja." To je ogromna datoteka. Gre za približno 40 megabajtov.

Ampak Jim, naj te vrnem in se nekako pogovarjam - spet mi je všeč ta koncept - kjer govoriš o zabavi ob bazenu, ki se izteče. Bi lahko govorili o tem, kako vam uspeva ostati na tekočem s tem, kaj se dogaja v odprtokodni skupnosti? Ker je okolje zelo hitro Mislim pa, da imate zelo pametno strategijo, kako služiti tovrstnemu podjetju, ki utrjuje podjetja, ki je na vrhu ali podobno. Ali lahko govorite o svojih razvojnih ciklih in kako ostajate na vrhu, kaj se dogaja?

Jim Vogt: Seveda. Če gremo le za posodobitve posnetkov, se hitro premikamo, toda tisto, kar danes pošiljamo v funkcionalnosti, je približno leto do leto in pol pred tem, kar lahko danes zagotovimo varnostnim zmogljivostim v skupnosti . Ni, da ne bodo prišli tja; samo čas traja. To je drugačen postopek, imajo sodelavce in podobno, in le čas traja. Ko gremo za stranko, moramo biti zelo dobro seznanjeni z odprtokodno in zelo dobro vedeti predvsem o varnostnih stvareh, ki jih prinašamo. Razlog, da dejansko izdajamo patente in oddajamo patente, je, da obstaja resnična vrednost IP-ja, intelektualne lastnine, okrog utrjevanja teh odprtokodnih komponent. Ko podpiramo stranko, moramo podpirati vse različne odprtokodne komponente in vse različne distribucije, kot tudi mi, prav tako pa moramo imeti strokovno znanje o posebnih lastnostih, ki jih dodajamo v ta odprtokodni vir, da lahko ustvarimo rešitev, ki jo ustvarimo. Čeprav ne želimo, da je stranka strokovnjak Hadoop, menimo, da za upravljanje avtomobila ne bi smeli biti mehanik. Moramo biti mehanik, ki razume avto in kako deluje ter razume, kaj se dogaja med našo kodo in odprtokodno kodo.

Eric Kavanagh: To je super. Phu, odgovoril ti bom še zadnje vprašanje. Potem, Robin, imam eno vprašanje zate in potem se bomo zaključili, ljudje. Arhivirali bomo to spletno oddajo. Kot sem že predlagal, bomo na spletnem mestu insideanalysis.com. Šli bomo tudi naprej in imeli nekaj stvari o Tehopediji. Velika hvala tem ljudem, da ste sodelovali z nami, da bi ustvarili to super novo serijo.

Toda Phu ... Spominjam se, da sem gledal predstavitev stvari in sem bil odkrito osupljiv nad tem, kar ste počeli. Lahko razložite, kako lahko dosežete takšno stopnjo brez prekinitve?

Phu Hoang: Seveda, mislim, da je to veliko vprašanje. Resnično, težava za nas je imela tri komponente. Številka ena je, da ne morete izgubiti dogodkov, ki se premikajo od operaterja do operaterja v grozdu Hadoop. Torej moramo imeti pripravo dogodkov. Še pomembneje pa je, da lahko znotraj svojih operaterjev imate stanja, ki jih izračunavate. Recimo, da dejansko štejete denar. Tam je vmesni vmesnik, če se to vozlišče spusti in je v spominu, te številke ni več in ne morete začeti od nekdaj. Od kod bi začeli?

Torej danes morate dejansko opraviti redno kontrolno točko stanja svojega operaterja do tega. Interval postavite tako, da ne postane velik režijski strok, ko pa se vozlišče spusti, se lahko vrne in se lahko vrne v točno tisto stanje, kjer ste se nazadnje preverili in lahko pripeljete dogodke, začenši z to stanje. To vam omogoča, da nadaljujete, kot da se dogodek dejansko še nikoli ni zgodil. Seveda je zadnje, da se prepričate, da je tudi vaš upravitelj aplikacij napak, da ne bo padel navzdol. Torej morajo obstajati vsi trije dejavniki, da lahko trdite, da ste popolnoma krivi.

Eric Kavanagh: Ja, to je super. Naj grem naprej in vrnem še zadnje vprašanje Robinu Bloorju. Torej se eden od udeležencev sprašuje, ali kdo misli, da bo Hortonworks ali kakšen drug vdrl / naložil velikega igralca, kot je Intel? Mislim, da o tem ni dvoma. Nisem presenečen, ampak očaran sem, mislim, da je Intel vdrl prej kot IBM ali Oracle, ampak verjetno fantje v IBM-u in Oracle mislijo, da jih je že zajel samo sodelovanje kar izhaja iz gibanja odprtih virov. Kaj meniš o tem?

Robin Bloor: Zelo radovedna poteza. V luči bi morali videti dejstvo, da je Intel že imel lastno distribucijo Hadoop, kar je učinkovito storil, pa je to le preneslo na Cloudero.V industriji ni toliko velikih moči, kot je Intel, in težko je vedeti, kakšen je vaš poslovni model, če imate distribucijo Hadoop, saj je težko natančno vedeti, za kaj se bo uporabljal v prihodnosti. Z drugimi besedami, ne vemo, od kod nujno prihajajo prihodki.

Z nekom, kot je Intel, želijo rešiti veliko procesov. Njihov glavni poslovni načrt bo bolj podpiral Hadoop. Poenostavljeno je razložiti, kaj namerava Intel. Ni tako enostavno uganiti, kaj bi lahko izbrali v zvezi z dajanjem kode v čipe. Nisem stoodstotno prepričan, ali bodo to storili. Mislim, zelo težko je tako imenovati. Njihova naslednja poteza na ravni strojne opreme je po mojem mnenju sistem na čipu. Ko gremo na sistem na čipu, boste morda želeli na čip dejansko postaviti nekaj osnovne programske opreme. Torej postavljanje HDFS tam; to bi morda imelo smisel. Mislim pa, da ni bilo za to denarno vlaganje. Mislim, da je vse, kar se tiče denarnih naložb, samo zagotovilo, da ima Intel svojo igro in gre dejansko naprej.

Glede tega, kdo bo še kupil, je to tudi težko reči. Mislim, SAP in Oracles tega sveta zagotovo dobijo dovolj denarja za nakup ali IBM ima dovolj denarja za nakup. Ampak, veste, to je vse odprtokodno. IBM ni nikoli kupil distribucije Linuxa, čeprav so v Linux vložili veliko denarja. Ni jim zlomil srca, da dejansko niso imeli distribucije Linuxa. Z veseljem sodelujejo z Red Hat. Rekel bi, da bo morda Red Hat kupil katero od teh distribucij, saj vedo, kako lahko ta poslovni model deluje, vendar je težko reči.

Eric Kavanagh: Ja, super poanta. Torej, ljudje, še zadnjič bom tukaj delil svoje namizje in vam samo pokazal nekaj stvari. Po dogodku torej poiščite Techopedia - to lahko vidite na levi strani. Pred vami je nekaj zgodbe, ki jo je resnično napisal vaš, pred nekaj meseci ali mesecem in pol. Resnično se je vrtelo iz številnih izkušenj, ki smo jih pogovarjali z različnimi prodajalci in poskušali razumeti, kaj se točno dogaja s prostorom, ker je včasih težko prenašati buzz besede in hype ter terminologijo ipd.

Tudi zelo hvala vsem tistim, ki ste se oglasili. Danes smo danes šli na tok Tweet. Torej, hvala vsem. Vidite, da se samo nadaljuje in nadaljuje. Danes je veliko odličnih tvitov o storitvi TechWise.

To je prva naša nova serija, ljudje. Najlepša hvala za vključitev. Nekaj kmalu vas bomo obvestili, kaj se dogaja za naslednjo serijo. Mislim, da se bomo junija morda osredotočili na analitiko. In ljudje, s tem mislim, da bomo šli naprej in zaprli svoj dogodek. Jutri vam bomo posredovali povezavo do diapozitivov od danes naprej in tudi povezavo do te polne plošče, ki je ogromna paluba. Imamo približno dvajset različnih prodajalcev s svojo Hadoop zgodbo. Resnično vam poskušamo ponuditi neke vrste zbirko vsebine o določeni temi. Za branje pred spanjem ali kadar koli vas zanima, se lahko nekako potopite in poskusite pridobiti strateški pogled na dogajanje v tej panogi.

S tem se bomo poslovili, ljudje. Najlepša hvala še enkrat. Pojdite na insideanalysis.com in Techopedia, da poiščete več informacij o vsem tem v prihodnosti in vas bomo naslednjič dobro dohiteli. Adijo.