Ključ do kakovosti velikih podatkov Analytics: Razumevanje različnih - prepis TechWise Epizoda 4 - Tehnologija

Video.: Full Steam Ep 4 Amanda Roche-Kelly, CEO Just Eat Ireland

Vsebina

Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje

Vir: Jakub Jirsak / Dreamstime.com

Odvzem:

Domačin Eric Kavanagh razpravlja o analitiki velikih podatkov z industrijskimi strokovnjaki.

Eric: Dame in gospodje, konec leta 2014 je - vsaj, skoraj. To je naša zadnja spletna oddaja v letu, ljudje! Dobrodošli v TechWise! Da, resnično! Ime mi je Eric Kavanagh. Jaz bom vaš moderator za super spletno oddajo, ljudje. Res sem zelo navdušen. Na spletu imamo dva super analitika in dve odlični podjetji - pravi inovatorji v tem celotnem velikem podatkovnem ekosistemu. In govorili bomo o ključu velike analitike podatkov je razumevanje razlik. Torej, pojdimo naprej in se potopimo noter, ljudje.

Imamo več predstaviteljev. Kot vidite, je resnično na vrhu vaša. Mike Ferguson kliče vso pot iz Velike Britanije, kjer je moral dobiti posebne privilegije, da je ostal pozno v svoji pisarni. Tako je zanj pozno Robin Bloor, naš glavni analitik v skupini Bloor, imamo dr. Imeli bomo Georgea Corugeda, izvršnega direktorja in soustanovitelja RedPoint Global-a, ter Keitha Renisona, starejšega arhitekta Solutions iz inštituta SAS. To so fantastična podjetja, ljudje. To so podjetja, ki resnično napredujejo. In raziskali bomo nekaj dobrih stvari tega, kar se trenutno dogaja v celem svetu velikih podatkov. In spregovorimo, majhni podatki niso izginili. In k temu naj tukaj povzamem svoj povzetek.

Torej, obstaja stari francoski izraz: "Več ko se stvari spremenijo, bolj ostanejo enake." In tukaj se soočimo z nekaterimi dejstvi - veliki podatki ne bodo rešili težav z majhnimi podatki. Majhni podatki o podjetjih so še vedno tam. Še vedno je povsod. To je gorivo za današnje informacijsko gospodarstvo. In veliki podatki ponujajo kompliment za te tako imenovane majhne korporativne podatke, ki pa ne izpodrivajo majhnih podatkov. Še vedno bo naokoli. Všeč mi je veliko stvari o velikih podatkih, zlasti stvari, kot so strojno ustvarjeni podatki.

Danes se bomo verjetno malo pogovorili o podatkih družbenih medijev, kar je tudi zelo močna stvar. In če na primer razmišljate o tem, kako se je socialno spremenilo poslovanje, dobro pomislite na tri hitra spletna mesta tukaj: LinkedIn in. Pomislite na to, da pred petimi leti nihče ni delal takšnih stvari. je absolutna juggernaut danes. je seveda ogromno. Je gangantuan. In potem je LinkedIn dejanski standard za korporativno mreženje in komunikacijo. Ta spletna mesta so zelo humorna in da bomo lahko vzpostavili podatke, ki so na njih, bodo oživili nekatere funkcionalnosti, ki spreminjajo igre. Za veliko organizacij bo res veliko dobrega - vsaj tistih, ki to izkoristijo.

Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje

Ne morete izboljšati svojih programskih veščin, kadar nikogar ne skrbi za kakovost programske opreme.

Torej, upravljanje - upravljanje je še vedno pomembno. Ponovno veliki podatki ne izničijo potrebe po upravljanju. Odkrito povedano, povsem nova potreba se mora osredotočiti na to, kako upravljati svet velikih podatkov. Kako poskrbite za svoje postopke in pravilnike; da pravi ljudje dobijo dostop do pravih podatkov; da imate stike, ste tukaj vključeni rodovniki? Pravzaprav veste, od kod prihajajo podatki, kaj se je zgodilo z njimi. In to se vse spreminja.

Iskreno sem navdušen nad nekaterimi, kar sem jih videl v tem novem svetu, pri čemer sem izkoristil ekosistem Hadoop, kar je seveda veliko več kot skladiščenje v smislu funkcionalnosti. Hadoop je tudi računalniški motor. Podjetje mora ugotoviti, kako uporabiti računalniško moč, to zmožnost vzporedne obdelave. Naredili bodo zelo, zelo kul stvari. O tem bomo izvedeli danes.

Druga stvar, ki jo je treba omeniti, to je nekaj, o čemer je dr. Bloor govoril v nedavni preteklosti, je, da inovacijskega vala še ni konec. Tako da smo okoli Hadoopa videli veliko pozornosti. Videli smo podjetja, kot sta Cloudera in Hortonworks, saj res nekaj valijo. In danes razvijajo partnerstva s podjetji, ki so na razpisu, povsem odkrito. In razvijajo partnerstva z veliko ljudmi. Toda inovacijskega vala še ni konec. Iz fundacije Apache obstaja več projektov, ki spreminjajo ne le končno točko - če jih želite - aplikacije, ki jih ljudje uporabljajo - temveč tudi samo infrastrukturo.

Torej je celoten razvoj preje - še en pogajalec o virih - resnično podoben operacijskemu sistemu za velike podatke. In to je velika, velika stvar. Tako se bomo naučili, kako se tudi to spreminja. Torej, le nekaj koščkov očitnih nasvetov, bodite previdni, če bodo dolge pogodbe potekale naprej, veste, pet-, desetletne pogodbe bodo val, pot, ki se mi zdi. Vključitvi se boste želeli izogniti za vsako ceno. Danes bomo izvedeli vse o tem.

Torej, naš prvi govornik analitik - naš prvi govornik celotnega programa je Mike Ferguson, ki je prispel iz Velike Britanije. S tem ti bom predal ključe, Mike, in ti dovolil, da ga odneseš. Mike Ferguson, tla so tvoja.

Mike, si tam? Morda ste brez zvoka. Ne slišim ga. Morda ga bomo morali poklicati nazaj. Pravkar bomo skočili desno na diapozitive Robin Bloor. Robin, tukaj se bom uvrstil na ubogega Mika Fergusona. Bom šel za sekundo.

Ste to vi, Mike? Nas lahko slišite? Ne. Mislim, da bomo morali najprej iti z Robinom. Torej, počakajte eno sekundo, ljudje. Tudi čez nekaj minut bom povlekel nekaj povezav do diapozitivov. Torej, s tem naj dam ključe Robinu Bloorju. Robin, lahko greš prvi namesto Mikea, jaz pa ga pokličem čez sekundo.

Robin: V redu.

Eric: Počakaj, Rob. Daj, da grem naprej, da te odprem, Rob. To bo trajalo sekundo.

Robin: V redu.

Eric: Ja. Lahko se nekako pogovarjate o tem, s čim se ukvarjamo, kar zadeva upravljanje. Vem, da boste govorili o upravljanju. O tem se običajno razmišlja v zvezi z majhnimi podatki o podjetjih. Zdaj, imam drsnik, Robin. Ne premikaj ničesar. In tu greš. Tla so tvoja. Vzemi stran.

Robin: V redu. Ja. Mislim, vnaprej smo se nekako dogovorili, Mike bo govoril o analitični strani, jaz pa o strani upravljanja. Do določene mere upravljanje sledi analitiki v smislu, da to počnete z velikimi podatki in razlog, da sestavljate vso programsko opremo za to, je v tem tudi vrednost.

Obstaja težava Težava je v tem, da je treba podatke zajemati. Podatki morajo biti usklajeni. Podatke je treba zbrati in upravljati na način, ki omogoča analitiko, da poteka s popolnim zaupanjem - mislim, da je beseda. Torej, mislil sem, da bom govoril o upravljavski enačbi. V resnici je treba reči, da je upravljanje že vprašanje. Upravljanje je bilo že vprašanje, začelo pa je postati vprašanje v celotni igri s podatkovnimi skladišči.

V resnici se je to spremenilo v veliko večje težave. In razlog, da se je spremenil v veliko večje težave, pa tudi več podatkov, toda mislim, to so res razlogi. Število virov podatkov se je močno povečalo. Prej so bili viri podatkov na splošno opredeljeni glede na to, kar je hranilo podatkovno skladišče. Skladišče podatkov bi običajno napajalo sisteme RTP. Mogoče je malo zunanjih podatkov, ne veliko.

Zdaj smo odšli v svet, kjer, veste, trg podatkov trenutno nastaja, zato bo trgovanje s podatki. Že imate veliko različnih podatkov za pretakanje virov, ki jih lahko dejansko vnesete v organizacijo. Imamo podatke o družabnih medijih, ki so jih prevzeli, odnesli na svoj račun, tako rekoč. Mislim, zelo veliko vrednosti na spletnih straneh družbenih medijev so pravzaprav informacije, ki jih zbirajo in zato lahko dajo na voljo ljudem.

Odkrili smo tudi, da je, kot da že obstajajo. Te datoteke dnevnikov smo že imeli, ko se je znašel Splunk. In kmalu je postalo očitno, da v dnevniški datoteki obstaja vrednost. V organizaciji so bili podatki, ki so bili - ki bi jih lahko imenovali novi viri podatkov in tudi zunanji viri. Torej, to je ena stvar. In to v resnici pomeni, da ne glede na pravila upravljanja podatkov, ki smo jih imeli že prej, jih bomo morali tako ali drugače razširiti in jih bo treba še razširiti, da bodo dejansko upravljali podatkov. Zdaj pa se začnemo sestavljati tako ali drugače.

In spuščanje po tem seznamu imamo pretakanje in hitrost prihoda podatkov. Mislim, da je razlog za priljubljenost Hadoopa v tem, da ga je mogoče uporabiti za pridobivanje veliko podatkov. Prav tako lahko zaužije hitrost podatkov, če vam dejansko ni treba takoj uporabiti, je lepo vzporedno, ogromno vzporedno okolje. Toda prav tako ste spoznali dejstvo, da se zdaj izvaja kar nekaj analitičnega pretočnega analitika. Nekoč so bili bančni sektorji, ki jih je zanimalo pretakanje aplikacij, zdaj pa je to nekako globalno. In vsi gledajo na tak ali drugačen način pretakanje aplikacij, kar je potencialno sredstvo za pridobivanje vrednosti iz podatkov in analitiko za organizacijo.

Imamo nestrukturirane podatke. Statistični podatki, običajno del le 10% svetovnih podatkov, so bili v relacijskih bazah podatkov. Zdaj je bil eden glavnih razlogov za to, da je bil v resnici nestrukturiran, in to je bil - veliko tega je bilo zunaj na spletu, vendar je bilo precej razpršenih o različnih spletnih mestih. Ti podatki so se izkazali tudi za analizo in tudi uporabne. In s pojavom tehnologije Symantec, ki postopoma prehaja v razmere, postaja vse bolj in bolj.Zato je treba dejansko zbirati in upravljati nestrukturirane podatke, kar pomeni, da so veliko večje, kot so bile prej. Imamo socialne podatke, ki sem jih že omenil, toda bistvo o tem je, da je verjetno potrebno čiščenje.

Imamo podatke o internetu stvari. To je drugačna situacija. Verjetno bo tega veliko, vendar bo veliko tega moralo ostati razporejeno nekje v bližini mesta, kjer vodi. Toda na takšen ali drugačen način ga boste želeli tudi potegniti, da boste analizirali podatke v organizaciji. To je še en dejavnik. In ti podatki bodo strukturirani na drugačen način, ker bodo verjetno - verjetno bodo oblikovani v JSON ali v XML, tako da se deklarira. In ne samo, da na tak ali drugačen način dejansko vnašamo podatke in smo sposobni narediti nekakšno shemo pri branju na določenem kosu podatkov.

Imamo vprašanje porekla in to je vprašanje analitike. Rezultati kakršne koli analize, ki jo izvajate, resnično ne morejo biti - če želite - potrjeni, veljavni, razen če poznate izvor podatkov. Mislim, to je samo profesionalnost v smislu dejavnosti podatkovnih znanstvenikov. Ampak veste, da imamo podatke o poreklu, to pomeni, da moramo dejansko upravljati podatke in voditi beležko do njegovega rodu.

Imamo vprašanje napajanja računalnika in vzporednic in vse, kar počne, je, da gre vse hitreje. Težava je v tem, da so očitno nekateri procesi, ki jih imamo, morda prepočasni za vse drugo. Mogoče obstajajo neusklajenosti glede hitrosti.

Došlo je do strojnega učenja. Strojno učenje v resnici vpliva na to, da analitika postane drugačna igra kot prej. A resnično ga lahko uporabljate le, če imate moč.

Dobili smo dejstvo o novih analitičnih delovnih obremenitvah. Imamo vzporedni svet in nekatere analitične algoritme je treba za največji učinek izvajati vzporedno. In zato je težava pravzaprav uravnavanje tega, kako dejansko na tak ali drugačen način potiskate podatke, jih naredite, če so na voljo. In kje dejansko izvajate analitične obremenitve, ker to morda počnete znotraj baze podatkov. Torej, morda to počnete v analitičnih aplikacijah.

Torej, obstaja cela vrsta izzivov upravljanja. To, kar smo naredili letos - raziskave, ki smo jih opravili letos, je bilo v resnici okoli velike podatkovne arhitekture. In ko to dejansko poskušamo posplošiti, je bil zaključek, do katerega smo prišli - diagram, ki smo ga pripravili, videti nekako takole.

Ne bom se s tem ukvarjal, še posebej, ker bo Mike za analitiko opravil velik znesek na področju podatkovne arhitekture. Toda v resnici sem rad, da se ljudje samo osredotočimo na to spodnje območje, kjer tako ali drugače zbiramo podatke. Nekaj, na kar bi se rad skliceval, je rafinerija podatkov ali vozlišče za obdelavo podatkov. In tu se odvija upravljanje. Torej, veste, če se nekako osredotočimo, je videti tako. Veste, napajajo ga podatki iz notranjih in zunanjih virov. Teoretično bi moralo biti vozlišče vzeti vse podatke, ki se ustvarjajo. Če želite opraviti analitiko in pretakanje podatkov, jo bodite pretočili in upravljali tako, kot jo boste prenašali, nato pa jo prenesli na središče. Ali drugače, vse pride v pesto. V središču se dogajajo številne stvari. In v središču ne morete imeti določene količine analitike in SQL. Vendar pa imate tudi potrebo po virtualizaciji podatkov v vsaki celici, da podatke potisnete na druga področja. Toda preden se kaj od tega zgodi, morate na tak ali drugačen način dejansko izpopolniti pripravo podatkov. Lahko mu rečete priprava podatkov. Je veliko večja od tega. Mislim, da so to stvari, ki vključujejo.

V upravljanju sistema in upravljanju storitev imamo v določenem smislu, da je to glavni del podatkovne plasti, potem moramo dejansko uporabiti vse sisteme, ki upravljajo s prizadevanji za upravljanje operacijskega sistema, kar smo tradicionalno storili za skoraj vse operacijske sisteme. Vendar moramo na tak ali drugačen način nadzorovati tudi druge stvari, ki se dogajajo, da se prepriča, ali so te različne ravni storitev dosežene, ker morajo biti določene ravni storitev ali kakršne koli analitike, kot se uporablja, ali podatki BI dejanja.

Potrebujemo spremljanje in upravljanje uspešnosti. Če kaj drugega, to potrebujemo, da vemo, katere nadaljnje računalniške vire bomo morda potrebovali dodeliti v različnih obdobjih. Poleg tega je ogromno delovne obremenitve dejansko dejansko precej zapleteno in med seboj tekmujejo za vire. Na tem področju je treba storiti nekaj zelo izpopolnjenega.

Zdaj imamo življenjski cikel podatkov na način, ki ga še nikoli nismo imeli. Dogovor tukaj je resnično nad vsem, da podatkov nismo zbrali in jih vrgli prej. Navadno smo zbirali podatke, ki jih potrebujemo in jih verjetno hranili, nato pa jih arhivirali. A ogromno tega, kar bomo od tu naprej počeli, je raziskovanje podatkov. In če podatkov ne želite, jih pokopajte. Tako so življenjski cikli podatkov različni glede na situacijo, vendar bo tudi veliko več združevanja podatkov. Torej, saj veste, od kod prihaja agregat, kaj ... kaj je izvor združevanja, in tako naprej, in tako naprej. To je vse potrebno.

Podatkovna vrstica seveda posoja. Brez tega morate poznati težave, torej podatki… Vedeti moramo, da so podatki veljavni, toda kako zanesljivi so v resnici.

Dobili smo tudi preslikavo podatkov, ker bo dejansko tako ali drugače na voljo veliko podatkov. In to je, če želite, to se do neke mere nanaša na MDM. Preprosto je zdaj veliko bolj zapleteno, ker ko imaš prebrano veliko podatkov, ki jih je opredelil JSON ali temeljijo na naši XML shemi ob branju, boš moral tako ali drugače zelo aktivno aktivnosti kartiranja podatkov poteka.

Obstaja situacija upravljanja metapodatkov, ki je več kot MDM, ker je treba na tak ali drugačen način zgraditi tisto, o čemer bi si želel, da bi zdaj razmišljal kot o nekakšnem skladišču metapodatkov o vsem, kar vas zanima. Obstajajo metapodatki odkritje, ker nekateri podatki ne bodo nujno razglasili svojih metapodatkov in jih želimo takoj uporabiti. In potem je čiščenje podatkov, kar je ogromna stvar, kako lahko počnemo vrsto stvari. In obstaja tudi varnost podatkov. Vsi ti podatki morajo biti zavarovani na sprejemljivo raven, kar lahko v nekaterih primerih celo pomeni, na primer šifriranje veliko vrednosti.

Torej, vsa ta delovna obremenitev je pravzaprav imperij upravljanja. Vse to, tako ali drugače, se mora dogajati istočasno ali prej, vse naše analitične dejavnosti. To je veliko število usklajenih aplikacij. To je sistem sam po sebi. In potem tisti, ki tega ne storijo v različnih obdobjih, trpijo zaradi pomanjkanja, ko gredo naprej, ker grozno veliko teh stvari v resnici ni izbirno. Na koncu le povečate entropijo, če tega ne storite.

Glede analitike in upravljanja podatkov je stvar, ki bi ji rekel, da v resnici ena roka pere drugo. Brez upravljanja, analitika in BI ne bodo pravočasno preplavili. In brez analitike in BI-ja tako ali tako ne bi bilo veliko potrebe po urejanju podatkov. Tako dve stvari resnično hodita z roko v roki. Kot pravijo na Bližnjem vzhodu, "ena roka pere drugo." In to je pravzaprav vse, kar moram reči. Upam - upam, da smo zdaj dobili Mika.

Eric: Saj se. Mike, predvidevam, da si tam. Potisnil bom vaš drsnik navzgor.

Mike: Jaz sem. Ok, me slišite?

Eric: Ja, slišim te. Sliši se čudovito. Torej, naj vam predstavim ... Tukaj. In zdaj ste voditelj. Vzemi stran.

Mike: V redu, hvala! Dobro jutro, dober dan, dober večer vsem vam zunaj. Oprostite kolcanje na začetku. Iz nekega razloga sem se utišala in vse vidim, vendar me niso mogli slišati.

Vredu. Torej, hitro bi rad govoril o velikem analitičnem ekosistemu podatkov. Če mi želite postaviti vprašanja, bom na tej seji ali pozneje povedal, da me lahko dobite tukaj za moje kontaktne podatke. Kot sem že rekel, sredi noči tukaj v Veliki Britaniji.

No, naj pridem do tega, o čemer bi rad govoril. Jasno je, da smo v zadnjih nekaj letih opazili pojav vseh vrst novo najdenih vrst podatkov, ki jih podjetja zdaj želijo analizirati - vse od podatkov o klikah do razumevanja vedenja v spletu, podatkov družbenih medijev, o katerih je Eric govoril na Začetek programa tukaj. Mislim, da je Robin omenil JSON, BSON, XML - torej polstrukturirane podatke, ki se samoopisujejo. Seveda imamo tudi celo vrsto drugih stvari - vse od nestrukturiranih podatkov, dnevnikov IT infrastrukture, podatkov senzorjev. Vsi ti relativno novi viri podatkov, za katera so se podjetja zdaj zanimala, saj vsebujejo dragocen vpogled, ki bi lahko poglobil to, kar vemo.

To v bistvu pomeni, da je analitična krajina presegla tradicionalno skladiščenje podatkov. Podatke še vedno strukturiramo v svet kombinacije strukturiranih in večstrukturiranih podatkov, kjer bi lahko večstrukturirani podatki v mnogih primerih prihajali od znotraj ali zunaj podjetja. Kot rezultat teh novih vrst podatkov in novih potreb za analizo smo videli nastanek novih analitičnih delovnih obremenitev - vse od analize podatkov v gibanju, ki nekako obrača tradicionalno arhitekturo skladiščenja podatkov na nek način, kjer , v tradicionalne kroge vključi podatke, jih očisti, preoblikuje, shrani in analizira. Toda ko analiziramo podatke v gibanju, jih zajemamo, jih integriramo, pripravimo skozi analizo in nato shranimo. Torej, poteka analiza podatkov, preden so shranjeni kjer koli.

Zapleteno analiziramo strukturirane podatke, morda za razvoj modelov, statistični in napovedni razvoj modelov, kar za nekatere ljudi ni nič novega v tradicionalnem prostoru za shranjevanje podatkov. Imamo raziskovalno analizo podatkov na modelih. To je količina strukturiranih podatkov. Imamo nove obremenitve v obliki analize grafov, ki za moje stranke v finančnih storitvah vključuje stvari, kot so goljufije. Vključuje tudi kibernetsko varnost. Vključuje socialna omrežja, ki seveda tam razumejo vplivneže in podobne stvari. Obvladal sem ga celo v menedžmentu, ima nekaj let analize grafov.

Imamo optimizacijo podatkovnega skladišča ali odstranjevanje obdelave ETL, ki je bolj neke vrste primer uporabe informacijske tehnologije, zato lahko CIO to financira. In celo arhiviranje podatkov in podatkovnih skladišč, da se lahko hranijo v spletu pri stvareh, kot je Hadoop. Tako so vse te nove analitične obremenitve dodale nove platforme, nove platforme za shranjevanje v analitično pokrajino. Namesto da imamo tradicionalna skladišča podatkov in podatkovne zbirke, je Hadoop zdaj samo nekaj, kar imamo. Imamo baze podatkov NoSQL, kot so grafične baze podatkov, ki se pogosto uporabljajo za analitične obremenitve. Seveda lahko zdaj naredimo analizo grafov na samem Hadoop-u in tudi v DBMS-jih z grafikoni NoSQL. Imamo pretočno analitiko, ki jo je omenil Robin. In, če želite, imamo izdelavo modelov, morda tudi na napravah za analitično skladišče podatkov. A vse to je zapletlo analitično pokrajino, zdaj je potrebnih več platform. Predvidevam, da je izziv vsakega posla s sedežem ali zalednim poslovanjem ali financ, naročil, kadrovskih služb in nekakšnih operacij ugotoviti, kateri analitični projekti so povezani s tradicionalnim prizorom skladiščenja podatkov. In ko boste vedeli, da so analitični projekti povezani s temi novimi velikimi podatkovnimi platformami in kje lahko tečete, veste, katera analitična delovna obremenitev, vendar ne izgubite pogleda na poslovanje v smislu, da je to - zdaj boste videli, da gre za kombinacijo velikih projekti analitičnih podatkov in tradicionalni projekti hrambe velikih podatkov, ki so skupaj potrebni za krepitev znotraj kupca ali okrog operacij, okoli tveganja, financiranja ali trajnosti. In zato želimo, da se vse to uskladi z našimi strateškimi poslovnimi prednostnimi nalogami, da ostajamo na poti, saj veste, da vtaknete igle, ki jih je treba vtakniti, veste, za izboljšanje uspešnosti poslovanja, zmanjšanje stroškov, za zmanjšanje tveganj itd., veste za naše podjetje kot celoto. Torej, ne gre tukaj, da eden nadomešča drugega z velikimi podatki in tradicionalnimi. Oba se uporabljata skupaj. In to dramatično spremeni arhitekturo, veste.

Tukaj imam relativno novo arhitekturo, ki jo bom uporabljal s svojimi strankami. Tako je, kot lahko vidite na dnu, ogromen nabor podatkov, ki niso več samo strukturirani. Nekateri od njih prenašajo žive podatke, kot so senzorji, kot tržni podatki, take stvari. Lahko bi bili celo podatki v živo. To bi lahko bili pretočni podatki v živo. Torej tega ni bilo treba strukturirati. Torej lahko delamo tok obdelave teh podatkov, da samodejno ukrepamo v realnem času, vse zanimive podatke pa bi lahko filtrirali in prenesli v orodja za upravljanje informacij v podjetju, ki jih lahko uporabimo za naselitev analitičnih shramb podatkov. Razen če jih tukaj ne vidite, imamo zdaj že tradicionalno shranjevanje podatkov, podatkovne baze Hadoop in NoSQL. V mešanici imamo tudi upravljanje glavnih podatkov. In to povzroča večji pritisk na celoten nabor orodij za upravljanje podatkov, ne samo za poseljevanje teh podatkovnih shramb, temveč za premikanje podatkov med njimi.

Poleg tega moramo poenostaviti orodja za dostop. Ne moremo se samo obrniti na uporabnika in reči: "Pridobite vse te shrambe podatkov, držite te API-je - vaša težava." Morate poenostaviti dostop. In tako, v tamkajšnjih pikčastih črtah, boste videli, da virtualizacija podatkov in optimizacija nekako skrivata kompleksnost večkratnega shranjevanja podatkov, poskusite in končnim uporabnikom olajšajte dostop do tega. In seveda, na vrhu je vrsta orodij, veste - vse od tradicionalnih orodij za BI, ki so se nekako začele na vrhu shranjevanja podatkov, postopoma prehaja proti levi strani vaše karte, da se nekako poveže v Hadoops in nato svetovnih baz podatkov NoSQL.

Poiskali smo novo življenjsko najemnino, še posebej okoli nestrukturiranih podatkov o telesu, ki so pogosto shranjeni v Hadoopu. Imamo analitične aplikacije po meri, ki jih je treba narediti na platformi Hadoop s MapReduce, tako da je na primer okvir Spark. Imamo orodja za analitiko grafov, s katerimi se lahko osredotočimo na zelo specifične delovne obremenitve. Torej je vrsta orodij in pretokov podatkov tudi bolj zapletena. V skladišču podatkov ni več le enosmerna ulica. Seveda so zdaj glavni podatki.

Prihajamo novi viri podatkov, bodisi zajeti v NoSQL, veste, shranjevanje podatkov, kot je MongoDB, kot Cassandra, kot HBase. Tam imamo podatke neposredno v Hadoop za analizo in pripravo podatkov. Iz Hadoopa in podatkovnih skladišč imamo nova spoznanja. Imamo arhiv, ki prihaja iz podatkovnih skladišč v Hadoop. Zdaj imamo na voljo tudi vire podatkov v vse baze podatkov in podatkovne baze NoSQL. Torej, kar lahko vidite tukaj je, da se pri upravljanju podatkov dogaja veliko več dejavnosti. In to pomeni, da je programska oprema za upravljanje podatkov pod velikim pritiskom. To ni več enosmerna ulica. To je dvosmerno gibanje podatkov. Veliko več dejavnosti se dogaja, zato je prilagodljivost pomembna tako na sprednji strani orodja za upravljanje podatkov kot tudi na viru podatkov.

Torej, ta grafikon sega v tisto arhitekturo, ki sem jo omenil pred časom. Pokaže vam različne analitične obremenitve, ki se izvajajo v različnih delih te arhitekture. Nekako na spodnjem levem mestu imate sprotno pretakanje v realnem času, obdelava tokov pa poteka na podatkih, ki prihajajo iz kakršne koli žive podatkovne shrambe. V podatkovnih bazah grafov NoSQL imamo analize razredov. Lahko se zgodi tudi na Hadoopu. Na primer s sistemom Spark in GraphX-om, imamo preiskovalno analizo in rafinerijo podatkov, o kateri je Robin govoril, da se dogaja na Hadoopu. Še vedno traja tradicionalna delovna obremenitev in shranjevanje podatkov, saj uporabniki porabljajo statistične in napovedne modele, morda na napravah za shranjevanje podatkov. In še vedno poskušamo poenostaviti dostop do vsega tega, da bi olajšali končne uporabnike.

Torej, uspeh v vsej tej namestitvi je več kot le analitična plat. Veste, analitične platforme lahko postavimo na svoje mesto, toda če ne moremo zajeti in zaužiti podatkov, veste, podatki o visoki hitrosti in veliki količini v merilu, ni veliko smisla. Veste, nimam česa analizirati. In zato je za uspeh analitike velikih podatkov potrebno povečati operativne sisteme. To pomeni, da lahko podprete nove transakcije, veste, največ. Veste, kakršni koli nedržavni podatki, ki se tam zajamejo, bi lahko bili, veste, vsaka nova stopnja prihodov zelo, zelo visoka stopnja prispevkov pri podatkih o velikih hitrostih, kot so senzorji ali kateri koli zaužitji. Za vse to moramo biti sposobni poskrbeti - da bomo lahko zajeli tovrstne podatke in jih dali v analizo. Moramo tudi sami spremeniti analitiko in poenostaviti dostop do podatkov, ki sem jih že omenil. In potem, zaveži to. Veste, moramo biti sposobni izpopolniti nazaj v te operativne sisteme, da bomo dobili zaprto zanko.

Torej, spreminjanje operativne strani hiše za zajemanje podatkov, veste, zaide v svet podatkovne baze NoSQL. Tukaj vidite pet kategorij NoSQL baze podatkov. Ta kategorija bo modelirana samo kot kombinacija drugih štirih zgoraj. Na splošno veste, njegove ključne vrednosti, shranjeni dokumenti in zbirke podatkov o družinskih stolpcih - prve tri tam -, ki se nekako uporabljajo za več vrst transakcijskih in net transakcijskih podatkov.

Nekatere od teh baz podatkov podpirajo kot lastnosti; nekateri ne. Kljub temu pa veste, da smo jih uvedli za merjenje teh vrst aplikacij. In tako, na primer, ko smo se oddaljili od samo zaposlenih, ki opravljajo transakcije s tipkovnicami, od zdaj že kupcev in množic, ki uporabljajo nove naprave, da to lahko storijo. Zaznali smo izjemno povečanje števila transakcij, ki jih sklenejo podjetja. In zato moramo za to spremeniti obseg transakcijskih aplikacij.

Na splošno lahko to storimo na bazah podatkov NewSQL kot relacijsko bazo podatkov, kot sta NuoDB in VoltDB, prikazana tukaj. Ali je morda v uporabi nekaj baz podatkov NoSQL, ki morda podpirajo lastnosti ACID, ki lahko zagotavljajo obdelavo transakcij. To velja tudi za netransakcijske podatke, kot so podatki nakupovalnih košaric pred transakcijo, veste, preden ljudje kupujejo stvari, podatke senzorjev, saj veste, saj izgubim odčitke senzorjev med stotimi milijoni odčitkov senzorjev. To ni nič hudega. Kliki, veste, v svetu klikovnega toka - če uporabim klik, to ni nič hudega.Veste, da nam ni treba nujno imeti lastnosti ACID, in tam se pogosto začnejo uporabljati baze podatkov NoSQL, ki je bila tam - tista zmožnost zelo visoke in pravilne obdelave v obsegu, da zajemamo te nove vrste podatkov.

Hkrati želimo, da se analitika poveča. In zato vlečenje podatkov iz shranjevanja podatkov na analitične platforme ne bo več hecalo, ker so podatki preveliki. V resnici si želimo analitike potisniti drugače, v skladišče podatkov podjetja v Hadoop, v pretočno obdelavo, da bomo lahko analitiko potisnili k podatkom. Vendar pa zato, ker nekdo pravi, da gre za analitiko baz podatkov ali Hadoop analitiko, ne pomeni nujno, da se analitika izvaja vzporedno. Odkrito povedano, če nameravate vlagati v te nove množično vzporedne razširljive tehnologije, kot je Hadoop, kot so naprave za shranjevanje podatkov in kaj podobno, kot grozdni motorji za obdelavo tokov, moramo analitiko izvajati vzporedno.

Torej, to je samo odjava. Veste, če imamo analitiko za pomoč pri napovedovanju stvari strankam, operacijam, tveganju itd., Želimo, da te potekajo vzporedno, ne samo, da se izvajajo na platformi. Želimo oboje. In to je zato, ker, saj veste, je tehnologija podobna novim orodjem za vizualno odkrivanje, kot je SAS. Tu je pravzaprav eden izmed naših sponzorjev.

Ena stvar, ki si jo ljudje želijo, je vsaj izkoriščanje tistih v Hadoopu in nato v analizi podatkovnih baz. In želimo, da se ti izvajajo vzporedno, da bi lahko dosegli potrebno zmogljivost pri tako velikih količinah podatkov. Hkrati poskušamo poenostaviti dostop do vsega tega. In tako je SQL zdaj na dnevnem redu. Veste, SQL je - SQL v Hadoopu je trenutno vroč. Trenutno sledim v 19 pobudah SQL in Hadoop. Poleg tega lahko vidite, da lahko do teh podatkov pridemo na več načinov, tako da bomo lahko neposredno ob dostopu do SQL na Hadoop-u prišli do iskalnega indeksa. Na tak način, kot so, veste, nekateri ponudniki iskanja v tem prostoru, lahko imamo SQL dostop do analitičnih relacijskih baz podatkov, ki imajo Excelove tabele do Hadoopa.

Zdaj imamo lahko SQL dostop do strežnika za virtualizacijo podatkov, ki ga je nato mogoče povezati v podatkovno skladišče v Hadoopu. Sploh zdaj začenjam opaziti pojav SQL dostopa do pretočnih podatkov v živo. Dostop do vsega SQL-a tako hitro raste. In del izziva je ravno zato, ker se tam prodaja trži SQL. Vprašanje je, ali se lahko SQL ukvarja s kompleksnimi podatki? In to ni nujno preprosto. Tu se pojavljajo vse vrste zapletov, vključno s tem, da bi lahko podatke JSON ugnezdili. Lahko imamo variantne zapise sheme. Torej, prvi zapis ima eno shemo. Drugi zapis ima drugačno shemo. Te stvari so zelo drugačne od dogajanja v relacijskem svetu.

Zato se moramo vprašati o tem, kakšne podatke poskušamo analizirati in kakšne so analitične značilnosti. Ali je, veste, plošča, ki jo želite narediti? Je to strojno učenje? Ali gre za analizo grafov? Lahko to storite iz SQL-a? Veste, ali je to SQL mogoče priklicati? Koliko sočasnih uporabnikov to počnemo? Veste, imamo na stotine sočasnih uporabnikov. Je to mogoče za zapletene podatke? Veste, vse te stvari so ključna vprašanja. Tako sem nekako sestavil seznam nekaj, za katere mislim, da bi jih morali razmisliti. Veste, kakšne oblike datotek? O katerih vrstah podatkov govorimo? Kakšne analitične funkcije lahko uporabimo pri SQL, da dobimo zapletene podatke? In vrsta funkcij teče vzporedno. Hočejo reči, vzporedno morajo teči, če bomo morali to spremeniti. Ali se lahko danes pridružim podatkom v Hadoopu zunaj njega, veste, ali to ni izvedljivo? In kaj bom storil z vsemi temi različnimi obremenitvami?

In kot bomo videli, veste, od tega, kar sem videl, je med distribucijo SQL in Hadoop veliko razlik. To so vse tiste, ki jih spremljam. In mimogrede, to je čisti SQL na Hadoopu. To še ne vključuje virtualizacije podatkov. In tako, veliko zunaj in veliko prostora za konsolidacijo, kar mislim, da se bo zgodilo v naslednjem letu, osemnajstih mesecih ali podobno. Odpira pa se tudi še ena stvar, in sicer to, da lahko imam enake podatke v Hadoopu na istih podatkih. In to je nekaj, česar ne bi mogli početi v relaciji.

Seveda to pomeni, da morate potem vedeti, veste, kakšno poizvedovalno obremenitev izvajam? Ali naj to izvedem v paketu na določenem SQL na pobudi Hadoop? Ali naj izvajam delovne obremenitve interaktivnih poizvedb prek drugega SQL na pobudi Hadoop itd., Da vem, na koga naj se povežem? V idealnem primeru seveda tega ne bi smeli početi. Morali bi samo postaviti vprašanje. Veste, nekateri optimizatorji najdejo najboljši način za to. Po mojem mnenju še nismo povsem tam.

A kljub temu ima virtualizacija podatkov, ki sem jo že omenil, zelo pomembno vlogo za poenostavitev dostopa do več shramb podatkov. In če ustvarimo nova spoznanja o Hadoopu, je zagotovo verjetno, da se tem virtualnim skladiščem podatkov na primer pridružimo s virtualizacijo podatkov, ne da bi podatke iz Hadoopa nujno premaknili v tradicionalna skladišča podatkov. Seveda lahko to tudi storite. Prav tako je verjetno, če v Hadoop arhiviram podatke iz tradicionalnih skladišč podatkov. Še vedno se lahko spoznam na to in se pridružim tistim, ki so v našem skladišču podatkov, za virtualizacijo podatkov. Menim, da je po mojem mnenju virtualizacija podatkov velika prihodnost v tej celotni arhitekturi in poenostavila dostop do vseh teh shramb podatkov.

In da ne pozabimo, da ko ustvarjamo ta nova spoznanja, naj bo to v relacijskih sistemih ali NoSQL sistemih, še vedno želimo vpogledati ta vpogled v svoje delovanje, tako da lahko maksimiramo vrednost tega, kar smo našli, da bomo lahko izkoristiti, da za učinkovitejše, pravočasnejše odločitve v tem okolju za optimizacijo našega poslovanja.

Torej, če želimo, da vidimo, kaj potrebujemo, se nam zdijo novi viri podatkov. Imamo nove platforme na bolj zapleteni arhitekturi, če želite, da to rešimo. In Hadoop postaja zelo, zelo pomemben, dovolj za pripravo podatkov za naše tekoče peskovnike, za arhivske poizvedbe, arhiv iz podatkovnega skladišča, za upravljanje podatkov, ki širi krila, da presega skladiščenje podatkov, za upravljanje podatkov na vseh teh platformah, in nova orodja, ki jih je treba sposoben je analizirati in dostopati do podatkov v teh okoljih, imeti možnost razširljivih tehnologij za boljše zaužitje podatkov in zmanjšati analitiko tako, da jih potisne navzdol v platforme, da bi jih naredil bolj vzporedno. In potem, upam, tudi poenostaviti dostop do vsega s pomočjo novega SQL, ki prihaja na vrh. Tako vam daje idejo, kje smo se usmerili. Torej, s tem se bom vrnil nazaj, verjetno, Eric, kajne?

Eric: V redu, to je fantastično. In ljudje, moram reči, da med tem, kar ste pravkar dobili od Robina in Mika, gre verjetno za tako celovit in jedrnat pregled celotne pokrajine od pogleda, kot ga boste našli kjer koli. Naj grem naprej in najprej čakam na Georgea Corugeda. In tu je. Naj posvetim to na kratko. V redu, George, predal bom ključe in ti jih odnesel. Tla so tvoja.

George: Super! Najlepša hvala, Eric, in hvala, Rob in Mike. To je bilo veliko informacij in veliko, s čimer se strinjamo. Torej, k vrnitvi na Robinino razpravo, ker, veste, ni naključje, da je RedPoint tukaj, SAS pa tukaj. Ker se pri RedPointu resnično osredotočamo na njegovo podatkovno stran na upravljanje, obdelavo podatkov in pripravo na uporabo v analitiki. Torej, naj samo prelistam ta dva diapozitiva. In resnično se pogovarjajte o Robinnevem mnenju o MDM in kako pomemben je in kako koristen se mi zdi - in menimo - in Hadoop je lahko v svetu MDM in kakovosti podatkov.

Veste, Robin je malo govoril o tem, kako je to povezano s podjetniškim svetom skladišč podatkov, in prišel sem - veste, več let sem preživel v podjetju Accenture. In kar je bilo zanimivo, je, kolikokrat smo morali vstopati v podjetja in poskusiti ugotoviti, kaj storiti s podatkovnim skladiščem, ki je bilo v bistvu opuščeno. In veliko tega se je zgodilo, ker ekipa skladišč podatkov ni v resnici prilagajala svojih poslovnim uporabnikom ali potrošnikom podatkov. Ali pa je trajalo tako dolgo, da so se v času, ko so stvar zgradili, razvila poslovna uporaba ali poslovna utemeljitev zanjo.

In ena izmed stvari, za katere menim, da sem tako navdušena, je ideja o uporabi Hadoopa za glavno upravljanje podatkov, za kakovost podatkov in za pripravo podatkov dejstvo, da se lahko vedno vrnete na atomske podatke v Hadoop podatkovno jezero ali rezervoar podatkov ali shramba podatkov ali vozlišče ali ne glede na obliko piška, ki jo želite uporabiti. Ker pa vedno shranjujete te atomske podatke, imate vedno priložnost, da se uskladite s poslovnimi uporabniki. Ker kot analitik - ker sem dejansko začel svojo kariero kot statistik - veste, nič slabšega, saj veste, skladišča podatkov o podjetjih so čudovita za pripravo poročil, če pa želite narediti resnično napovedno analitiko, res ni tako koristno, kajti resnično si želite natančne vedenjske podatke, ki so nekako zbrani in združeni v podatkovnem skladišču. Torej, mislim, da je to res pomembna lastnost, in to je ena stvar, za katero mislim, da se z Robinom morda ne strinjam s tem, da bi osebno pustil podatke v podatkovnem jezeru ali vozlišču podatkov čim dlje, ker dokler podatki so tam in so čisti, pogledate jih lahko iz ene smeri, v drugo smer. Lahko ga združite z drugimi podatki. Vedno imate to priložnost, da se vrnete k njej in prestrukturirate, nato pa se uskladite s poslovno enoto in potrebami, ki jih lahko ima ta enota.

Ena od drugih vrst zanimivosti v tem je, da ker je tako močna računalniška platforma, veliko tistega obsega dela, o katerem smo govorili, vidimo, da vse to prihaja naravnost v Hadoop. In medtem, ko mislim, da je Mike govoril o vseh različnih tehnologijah, ki so tam zunaj na svetu - v tovrstnem ekosistemu velikih podatkov, mislimo, da je Hadoop resnično pravi delovni konjiček, ki počne tako velik obseg v računalniško intenzivni obdelavi, glavni podatki in kakovost podatkov zahtevajo. Ker če to lahko storite tam, veste, zgolj čista ekonomika prestavljanja podatkov iz vaših dragih baz podatkov in varčnih podatkovnih baz, to zdaj resnično povzroča toliko vnosa v velikih podjetjih.

Zdaj je seveda nekaj izzivov, kajne? Okoli tehnologij obstajajo izzivi. Veliko jih je zelo nezrelih. Rekel bi, vem, ne vem, koliko, vendar številne tehnologije, ki jih je omenil Mike, še vedno izhajajo iz nič, nekaj? Torej, te tehnologije so zelo mlade, zelo nezrele, še vedno temeljijo na kodi. In to resnično predstavlja izziv za podjetja. In resnično se osredotočamo na reševanje težav na ravni podjetja. In zato menimo, da mora biti drugačen način, in to je tisto, kar predlagamo, da se pri uporabi nekaterih teh zelo kratkih tehnologij nekaj stvari loteva.

In potem je tu druga zanimiva težava, ki smo jo že omenili, in sicer, ko imate podatke, ki jih zajemate v okolju Hadoop, ne glede na vrsto, je to ponavadi shema za branje in ne shemo pri pisanju z nekaj izjemami. In to branje, veliko tega počnejo statistiki. In tako morajo imeti statistiki orodja, ki jim omogočajo, da podatke pravilno strukturirajo v analitične namene, saj morajo biti na koncu dneva, da bodo podatki uporabni, strukturirani v neki obliki, da jih lahko ogledajo ali odgovorijo na vprašanje oz. posel, neka vrsta podjetja, ustvarja poslovno vrednost.

Torej, kamor pridemo, je to, da imamo zelo širok in zrel EPL, ELT glavni ključ za kakovost podatkov in aplikacijo za upravljanje. Na trgu je že veliko, mnogo let. In ima vso funkcionalnost ali večino funkcionalnosti, ki jo je Robin navedel v tem krožnem grafu - vse od zgolj čistih neobdelanih podatkov v najrazličnejših oblikah in XML strukturah in kaj podobnega, do zmožnosti vsega čiščenja, dopolnitev podatkov, popravljanje podatkov, bitovi geoprostorskih jedrov podatkov. To je danes z internetom stvari vse bolj in bolj pomembno. Veste, geografija je povezana z večino tega, kar počnemo, ali z večino teh podatkov. In tako, vse razčlenjevanje, tokenizacija, čiščenje, popravek, oblikovanje, strukturiranje itd., Vse to se naredi na naši platformi.

In potem, in morda se nam zdi najpomembnejša ideja o dedukciji. V bistvu veste, da če pogledate katerokoli definicijo glavnega upravljanja podatkov, je njegovo jedro dedukcija. Tako bo lahko identificiral subjekte iz različnih virov podatkov in ustvaril glavni zapis za to entiteto. In ta entiteta bi lahko bila oseba. Subjekt bi lahko bil na primer del letala. Subjekt je lahko hrana, kakršna smo storili za enega od naših strank zdravstvenega kluba. Za njih smo ustvarili glavno bazo hrane Torej, ne glede na entitete, s katerimi delamo - in seveda vedno bolj, obstajajo ljudje in pooblaščenci za njihovo identiteto, ki so stvari, kot so družbeni ročaji ali računi, ne glede na naprave, ki so povezane z ljudmi, nekatere stvari, kot so avtomobili in telefoni in karkoli drugega, kar si morda predstavljate.

Veste, sodelujemo s stranko, ki v športna oblačila postavlja vse vrste senzorjev. Torej, podatki prihajajo iz vseh smeri. Na tak ali drugačen način gre za odsev ali reprezentacijo osrednje entitete. Vedno bolj so to ljudje in sposobnost prepoznavanja odnosov med vsemi temi viri podatkov in kako se nanašajo na to osnovno entiteto ter nato lahko sledite tej osnovni entiteti skozi čas, da boste lahko analizirali in razumeli spremembe med tem entitetom in vsi tisti drugi elementi, ki so v predstavitvah te entitete, na primer resnično kritični za dolgoročno in vzdolžno analizo ljudi. In to je res ena od resnično pomembnih prednosti, ki nam, mislim, da nam lahko prinesejo veliki podatki, veliko boljše razumevanje ljudi in dolgoročno razumevanje con in kako se ljudje obnašajo, ko se obnašajo s pomočjo katerih naprav itd. .

Torej, naj se hitro premaknem sem. Eric je omenil PRE. Veste, to vrnem samo za nekaj sekund, ker medtem ko PREJ - ljudje govorijo o PREHRANI. Še vedno je veliko nevednosti, mislim, o PREŽI. In prav veliko ljudi ni - še vedno je veliko nerazumevanja o PREJ. In dejstvo je, da če je bila vaša aplikacija načrtovana na pravilen način in imate ustrezno raven ali paralelizacijo v svoji arhitekturi aplikacij, lahko izkoristite YARN in uporabite Hadoop kot svojo platformo za skaliranje. In ravno to smo storili.

Saj veste, samo, da opozorim na nekatere definicije okrog PREV. Nam je resnično tisto, kar YARN omogoča, da smo sebi in drugim organizacijam postali enakovredni MapReduce in Spark ter vsa ostala orodja, ki so tam zunaj. A dejstvo je, da naše aplikacije vodijo optimizirano kodo neposredno v JADN v Hadoop. In res je zanimiv komentar, ki ga je omenil Mike, saj, veste, vprašanje o analitiki in naši analitiki, samo zato, ker so v grozdu, res teče vzporedno? Isto vprašanje lahko postavite o številnih orodjih za kakovost podatkov, ki so tam.

Večino dneva morajo kakovostna orodja, ki so na voljo, bodisi odnesti podatke, bodisi pritiskajo kodo. In v mnogih primerih gre za en sam tok podatkov, ki se obdeluje zaradi načina, ki ga morate opraviti primerjajte zapise, včasih v dejavnostih glede kakovosti podatkov. In dejstvo je, da smo zato, ker uporabljamo YARN, resnično izkoristili paralelizacijo.

In samo za hiter pregled, saj je še en komentar o pomembnosti možnosti razširitve tradicionalnih baz podatkov, novih baz podatkov itd., Ki jih izvajamo ali namestimo zunaj grozda. In svoje binarne datoteke potisnemo neposredno v upravitelja virov, PREV. In to, nato pa ga YARN porazdeli po vozliščih v grozdu. In to je, da je PREVAR - YARN dovolimo, da upravlja in opravlja svoje delo, to je, da ugotovi, kje so podatki, in delo prevzame na podatke, kodo na podatke in ne premika podatkov. Ko slišite orodja za kakovost podatkov in vam povedo, da je najboljša praksa, da podatke izstavite iz Hadoopa, zaženite svoje življenje, saj to preprosto ni tako. Delo želite prenesti na podatke. In to je tisto, kar JARN najprej naredi. Naše binarne datoteke popeljejo do vozlišč, kjer so podatki.

In tudi zato, ker smo zunaj grozda, lahko dostopamo tudi do vseh tradicionalnih in relacijskih baz podatkov, tako da lahko na tradicionalni bazi podatkov, 100% Hadoop ali hibridnih opravilih, ki gredo čez odjemalski strežnik Hadoop, imamo opravila, ki so 100% odjemalski strežnik. , Oracle, Teradata - karkoli si želiš in vsi v istem poslu, ker lahko ena implementacija dostopa do obeh strani sveta.

In potem, ko se vrnemo na celotno idejo o novosti orodij, vidite tukaj, to je samo preprosta predstavitev. In poskušamo poenostaviti svet. In to počnemo tako, da prinesemo zelo širok nabor funkcionalnosti okoli HDFS, da bi to dosegli ... In to ne zato, ker poskušamo odpraviti vse inovativne tehnologije tam. Podjetja potrebujejo stabilnost in ne marajo rešitev, ki temeljijo na kodi. In zato poskušamo podjetjem podariti znano, ponovljivo in dosledno okolje aplikacij, ki jim omogoča, da gradijo in obdelujejo podatke na zelo predvidljiv način.

Hitro je to tak učinek, ki ga dobimo z našo aplikacijo. Vidite MapReduce vs. Pig vs. RedPoint - v RedPointu ni kode vrstic. Šest ur razvoja v MapReduce, tri ure razvoja Pig in 15 minut razvoja v RedPointu. In tu imamo res velik vpliv. Čas obdelave je tudi hitrejši, vendar se čas ljudi, produktivnost ljudi, znatno poveča.

In na zadnjem diapozitivu se želim vrniti k tej ideji, ker je to naša uporaba podatkovnega jezera ali vozlišča podatkov ali rafinerije podatkov kot osrednja točka zaužitja. Ne bi se mogel bolj strinjati s to idejo. In trenutno se pogovarjamo z veliko glavnimi uradniki za podatke v velikih svetovnih bankah, in to je arhitektura izbire.Zaužitje podatkov iz vseh virov opravi obdelavo kakovosti podatkov in obvladuje upravljanje podatkov znotraj podatkovnega jezera, nato pa podatke potisne tja, kamor je potrebno, da podprejo aplikacije, da podprejo BI, kar koli že lahko. In potem, če imate analitiko v BI-ju, lahko tečejo neposredno v podatkovnem jezeru, kjer je še bolje, kar se lahko začne takoj. Ampak zelo rad na tej ideji. Ta topologija je ena taka - ugotovimo, da veliko pridobiva na trgu. In to je to.

Eric: V redu, dobro. Pojdimo tukaj. Bom šel naprej in ga izročil Keithu. In, Keith, imaš približno 10, 12 minut, da tukaj razvadiš hišo. V teh oddajah smo morali iti kar nekaj časa. In za to smo oglaševali 70 minut. Torej, samo pojdite naprej in kliknite kjer koli na ta drsnik ter uporabite puščico navzdol in jo odnesite.

Keith: Seveda. Brez problema, Eric. Cenim to. Bom šel naprej in zadel le nekaj delcev o SAS-u, nato pa bom prešel naravnost v tehnološke arhitekture, kjer se SAS seka s svetom velikih podatkov. V vseh teh stvareh je veliko razložiti. Skozi to bi lahko porabili nekaj ur, a deset minut - morali bi se odpraviti s kratkim razumevanjem, kam je SAS prevzel analitiko, upravljanje podatkov in tehnologije poslovne inteligence v ta svet podatkov.

Najprej le malo o SAS. Če niste seznanjeni s to organizacijo, zadnjih 38 let izvajamo napredno analitiko, poslovno inteligenco in upravljanje podatkov z ne le velikimi podatki, temveč majhnimi podatki in bogastvom podatkov. Imamo ogromno stopala za kupce, približno 75.000 lokacij po vsem svetu, ki sodelujejo z nekaterimi vrhunskimi organizacijami tam. Smo zasebna organizacija z okoli 13.000 zaposlenimi in 3 milijardami dohodka. In res, mislim, da je pomemben del to, da že tradicionalno imamo dolgoletno zgodovino vlaganja pomembnih količin prihodkov nazaj v našo organizacijo za raziskave in razvoj, kar je resnično prineslo veliko teh neverjetnih tehnologij in platform, ki jih imate. " gremo danes videti.

Torej, skočil bom naravnost v te zastrašujoče arhitekturne diagrame. V mojih diapozitivih bomo delali od leve proti desni. Torej, znotraj te platforme boste videli znane stvari. Na levi strani so vsi ti viri podatkov, o katerih govorimo, za zaužitje v te velike podatkovne platforme. In potem imate to veliko podatkovno platformo.

Nisem samo besedo Hadoop postavil tja na vrh, kajti na koncu se primeri, ki jih bom danes navedel, natančno nanašajo na vse tehnologije, kjer sečimo te velike platforme podatkov. Zgodi se, da je Hadoop eden izmed tistih, kjer imamo nekaj najbolj robustnih možnosti uvajanja, vendar se tudi precej sekamo in smo že nekaj časa razvili veliko teh tehnologij z nekaterimi drugimi našimi podjetniškimi skladišči podatkov, kot je Teradata, Oracle, Pivotal in podobni. Torej, ne morem se spuščati v podrobnosti glede vseh različnih tehnologij, ki so podprte na kateri platformi, vendar bodite prepričani, da so vsi, ki jih danes opisujem, večinoma vse, kar je Hadoop in ogromno njih seka z drugimi tehnološkimi partnerji, ki imamo. Torej, imamo tako veliko platformo, ki sedi tam.

Naslednji desno, imamo analitični strežnik SAS LASR. Zdaj je to v bistvu vzporedno pomnilniški analitični aplikacijski strežnik. Jasno nam bo, da ne gre za bazo podatkov v pomnilniku. Resnično je zasnovan od zgoraj navzgor. To ni mehanizem za poizvedbe, vendar je zasnovan za množično zagotavljanje analitičnih zahtev v masovnem vzporednem načinu. To so aplikacije za storitvene ključe, ki jih vidite tam na desni strani.

Nekaj podrobneje bomo spoznali, kako ljudje razporejajo te stvari. A v bistvu je aplikacija - ali vidite tam - prva, naša analiza zmogljivosti SAS. To bo tako - uporabljam veliko naše obstoječe tehnologije in platform, kot je Enterprise Miner ali samo SAS, in ne samo, da delam večstransko branje z nekaterimi algoritmi, ki smo jih vgradili v tista orodja, za katera smo naredili let, pa tudi množično vzporedno s tistimi. Torej, da premaknemo podatke s te velike podatkovne platforme v pomnilniški prostor na tisti LASR analitični strežnik, da bomo lahko izvajali analitične algoritme - saj veste, veliko novega strojnega učenja, nevronske mreže, naključne regresije gozdov, take vrste stvari - spet podatki, ki sedijo v spominu. Torej, če se znebite tega določenega ozkega grla paradigme MapReduce, kjer smo prijavljeni na te platforme, to ni način, na katerega bi radi opravljali analitično delo. Torej, želimo, da bi podatke lahko enkrat dvignili v pomnilniški prostor in jih ponovili, veste, včasih tudi tisočkrat. To je koncept uporabe tega visokozmogljivega analitičnega LASR strežnika.

Tudi mi - druge aplikacije pod njim, vizualna analitika, ki nam omogoča, da te podatke shranimo v pomnilnik in na istih podatkih postrežemo večji populaciji. Tako ljudem omogočamo raziskovanje velikih podatkov. Preden začnemo razvijati model, raziskujemo podatke, jih razumemo, poganjamo korelacije, napovedujemo ali trendiramo odločitvena drevesa - take stvari - vendar na zelo vizualen in interaktiven način za podatke, ki sedijo v spominu ploščad. To zagotavlja tudi našo BI skupnost, če imamo zelo široko bazo uporabnikov, ki lahko dosežejo to platformo, da naredi standardne vrste snemanja, ki jih vidite - kar pa je, veste, BI prodajalca tam.

Naslednji korak nato prestavimo v službo. In da pomagamo našim statistikom in našim analitičnim ljudem, da bodo lahko izvedli tovrstno ad hoc modeliranje s podatki, ki sedijo v spominu, odstranjeni iz vizualne analitike in raziskovanja v naši aplikaciji za vizualno statistiko. To je priložnost, da si ljudje ogledajo rezultate, da ne vodijo statistike v serijah, ki so včasih ponavljali modele, zaganjali modele, videli rezultate. Torej, da lahko zaženete model, poglejte rezultate. Gre za vizualno vlečenje in spuščanje v interaktivno statistično modeliranje. Torej, to zagotavlja našim statistikom in našim podatkovistom, da opravijo veliko tega zgodnjega raziskovalnega vizualnega statističnega dela.

In potem nismo pozabili naših kodrov - ljudje, ki si resnično želijo, da bi lahko odlepili plasti vmesnika nasproti, je to, da pišejo aplikacije in napišejo svojo bazo kod v SAS. To je naša statistika spomina za Hadoop. In to je - v bistvu kodna plast, ki nam je omogočila interakcijo s tem analitičnim LASR strežnikom za neposredno izdajanje ukazov in prilagajanje teh aplikacij na podlagi naše zahteve. To je analitični del.

Kako se te stvari postavljajo ... Ojoj, žal mi je. No pa gremo.

Obstaja resnično nekaj načinov, kako to storimo. Eno je to storiti z velikimi podatki - v tem primeru s Hadoopom. In tu imamo SAS LASR analitični strežnik, ki deluje v ločeni skupini strojev, ki so optimizirani za trdo analitiko. To je lepo nameščeno in je blizu velike podatkovne platforme, kar nam omogoča, da ga razvrstimo ločeno od platforme velikih podatkov. Torej, vidimo, da ljudje to počnejo, kadar nočejo imeti takega, kar jaz označujem, kot je vampirska programska oprema, ki jedo stran na vseh vozliščih v njihovi skupini Hadoop. In ni nujno, da je ta velika podatkovna platforma primerna za izvajanje težkih analitičnih pomnilnikov. Torej, morda imate 120 vozlišč njihove skupine Hadoop, lahko pa imajo 16 vozlišč analitičnih strežnikov, ki so zasnovani za takšno delo.

Še vedno nam je dovoljeno ohraniti to vzporednost z velike podatkovne platforme, da podatke potegnemo v spomin. Torej gre res za SAS s platformo Hadoop. Drugačen model sestankov je torej pravi, da lahko uporabimo tudi to blagovno platformo in to potisnemo - v bistvu zaženemo analitični LASR strežnik na platformah Hadoop. Tukaj smo mi ... delujete znotraj platforme velikih podatkov. To so tudi nekateri drugi prodajalci naprav. Torej, to nam omogoča, da v bistvu uporabimo to platformo blaga za to delo.

Pogosteje opažamo, da gre za stvari, kot so visoko zmogljiva analitika, kjer gre za analitični tek za enkratno uporabo ali za enkratno uporabo, bolj vrsto usmerjenosti v serijo, kjer ste - ne želite nujno porabiti pomnilniškega prostora na Hadoopu ploščad. Pri takšnem modelu uvajanja smo zelo prilagodljivi, pri številnih teh primerih zagotovo sodelujemo z YARN, da zagotovimo, da igramo lepe grozde.

V redu, tako da je to analitični svet, samo da bo tam jasno z analitično aplikacijo. Omenil pa sem, da je SAS v samem začetku tudi platforma za upravljanje podatkov. In obstajajo stvari, ki so primerne za potiskanje logike v to platformo, kjer je to primerno. Torej, obstaja nekaj načinov, kako to storiti. Eden je v svetu integracije podatkov, pri izvajanju preobrazbe podatkov morda ne bi bilo smiselno, da bi ga potegnili nazaj, kot smo že slišali, in izvajali najbolj kakovostne rutine kakovosti podatkov. Vsekakor želimo stvari, kot so rutine kakovosti podatkov, potisniti v to platformo. In potem stvari, kot je točkovanje modelov. Torej, moj model je razvit. Te stvari ne želim prepisovati v MapReduce in mi otežuje in zamudno, da bi to delo ponovno predelali v domačo platformo baze podatkov.

Torej, če pogledate, na primer, naš pospeševalnik točkovanja za Hadoop, ki nam omogoča, da v bistvu vzamemo model in potisnemo matematično logiko SAS navzdol v to Hadoop platformo in jo tam izvedemo z uporabo vzporednosti znotraj te velike podatkovne platforme. Nato imamo pospeševalnik kode za različne platforme, vključno s Hadoopom, in to nam omogoča, da v bistvu vzporedno vodimo SAS podatkovno kodo podatkov znotraj platforme - tako da pri preoblikovanju podatkov deluje vrsta platforme. In potem naš pospeševalnik kakovosti podatkov SAS, ki nam omogoča, da sedimo v bazi znanja o kakovosti, ki lahko počne stvari, kot so ujemanje spola, standardizacijska koda ujemanja - vse različne stvari glede kakovosti podatkov, ki ste jih že slišali.

In nato, zadnji del, je tu Nalagalec podatkov. Vemo, da bodo morali naši poslovni uporabniki imeti možnost, da ne bodo morali pisati kode in da bo preoblikovanje podatkov delovalo na teh velikih platformah podatkov. Data Loader je prijeten GUI WYSIWYG, ki nam omogoča, da te druge tehnologije zavijemo skupaj. Kot čarovnik za iskanje, recimo, zažene poizvedbo Hive ali zažene rutino kakovosti podatkov in v tem primeru ni treba pisati kode.

Zadnja stvar, ki jo bom omenil, je ta sprednji del. Kot sem že omenil, imamo na svetu ogromno nogo SAS. In tega ne moremo nujno narediti vse tiste platforme, ki so tam zunaj, da bi bile takoj v tem prostoru. Zagotovo imamo obstoječega stopala uporabnikov, ki morajo pridobiti podatke, ki sedijo na teh velikih platformah podatkov, kot je na primer pridobivanje podatkov iz Teradata in njihovo vračanje v Hadoop, in obratno. Zagon modelov že vem, kako se lahko izvajam na svojih strežnikih SAS, vendar moram pridobiti podatke, ki so zdaj nameščeni na platformi Hadoop. Torej, obstaja še ena majhna ikona, imenovana "od", in nam omogoča povezavo s pomočjo motorjev za dostop SAS - motorji za dostop do Hadoopa do Cloudere v Poli, do Teradata, do Greenpluma do ... In seznam se nadaljuje. To nam omogoča, da uporabimo obstoječe zrele platforme SAS, ki že obstajajo, da dobimo podatke s teh platform, opravimo delo, ki ga moramo dokončati, potisnemo rezultate nazaj na ta področja.

Še zadnje, kar bom omenil, je, da vse te tehnologije, ki jih vidite, urejajo isti standardni skupni metapodatki. Torej, govorimo o tem, kako preoblikovati delo, pravilo kakovosti podatkov pri delu, ga premakniti v pomnilnik, da bi lahko naredili analitiko, razvoj modela za ocenjevanje. Tam imamo celoten analitični življenjski slog, življenjski cikel, ki ga urejajo skupni metapodatki, upravljanje, varnost, vse stvari, o katerih smo govorili prej.

Torej, samo povzetek, tam je treba vzeti res tiste tri velike stvari. Eno je, da lahko s podatkovno platformo ravnamo tako kot z vsemi drugimi viri podatkov, pri čemer jih potegnemo in jih pritisnemo, kadar je to primerno in priročno. Sodelujemo s tistimi velikimi podatkovnimi platformami, ki podatke uvrščajo v namensko napredno analitiko v pomnilniški platformi. To je strežnik LASR.

In nazadnje, lahko delamo neposredno na teh velikih podatkovnih platformah, pri čemer izkoristimo njihove zmogljivosti za distribucijsko obdelavo, ne da bi podatke premaknili.

Eric: No, to je fantastično. Ja, to je super! Torej, poglobimo se v nekaj vprašanj. Na te dogodke običajno hodimo približno 70 minut ali nekoliko dlje. Torej, vidim, da še vedno imamo veliko publike. George, najbrž vam bom odgovoril na prvo vprašanje. Če govorite o tem, da svoj binarni zvok potisnete v Hadoop, menim, da se mi to sliši, kot da ste resnično optimizirali računski potek dela. In to je celoten ključ, da lahko izvajamo takšne vrste upravljanja podatkov v realnem času, dosežkov v slogu kakovosti podatkov, ker to je vrednost, ki jo želite dobiti, kajne? Če se ne želite vrniti v stari svet MDM, kjer je zelo okorno in dolgotrajno, morate res prisiliti ljudi, da ravnajo na določene načine, kar skoraj nikoli ne deluje. In tako, kar ste storili, ste skrajšali cikel tega, kar je bilo. Kličimo dneve, tedne, včasih celo mesece do sekunde, kajne? Se to dogaja?

George: To je prav, saj obseg, ki ga dobimo in uspešnost, ki jo dobimo iz grozda, resnično osupne v smislu, saj veste, glede meril se vedno malo obotavljam. Toda samo za vrstni red, ko bi zagnali milijardo, 1,2 milijarde zapisov in naredili popolno standardizacijo naslovov - pravim, HP-jev stroj srednjega obsega - bi potrebovali, kot veste, osem procesorskih strojev, veste , 2 giga RAM-a na jedro, saj bi trajalo 20 ur. To lahko storimo v približno osmih minutah na grozdu z 12 vozli. In tako je obseg obdelave, ki ga lahko opravimo zdaj, tako zelo drugačen, da - in zelo lepo gre ob misli, da imate vse te podatke na voljo. Zato obdelave ni tako tvegano. Če ste naredili narobe, ga lahko znova ponovite. Imaš čas, veš. Resnično je spremenil obseg tega, kjer so, veste, taka tveganja resnično postala resnična poslovna težava ljudi, ko so poskušali uporabljati rešitve MDM. Morate imeti 30 ljudi na morju, ki upravljajo s podatki in vse. In tako moraš imeti še vedno nekaj od tega, toda hitrost in obseg, s katerim ga lahko zdaj obdelaš, ti resnično dajeta veliko več prostora za dihanje.

Eric: Ja, to je resnično zelo dobro. Všeč mi je ta komentar. Torej, imaš čas, da ga znova narediš. To je fantastično.

George: Ja.

Eric: Pa spremeni dinamiko, kajne? Spremeni se, kako razmišljate o tem, kaj boste poskusili. Mislim, tega se spomnim pred 18 leti v industriji, ki je delal posebne učinke, saj sem imel stranko, ki je bila v tistem prostoru. In pritisnili bi gumbe, da bi jo upodobili, in odšli bi domov. In vrnili bi se, morda v soboto popoldne, da bi videli, kako gre. Če pa ste se zmotili, je bilo to zelo, zelo, zelo boleče. In zdaj to niti približno ni - niti približno ni tako boleče, da boste lahko poskusili še več stvari. Moram reči, mislim, da je to resnično zelo dobro.

George: Točno tako. Ja, in pihaš dodatno nogo. Veste, ko ste v starih časih na polovici službe in vam ne uspe, razstrelili ste SOS. To je to.

Eric: Prav. In ste v velikih težavah, ja. Tako je.

George: Tako je. Tako je.

Eric: Keith, naj ti vrnem enega. Spominjam se, da sem opravil intervju s svojim CIL-om, Keithom Collinsom, verjamem, da sem se vrnil v, morda, 2011, morda. In veliko je govoril o smeri, ki jo SAS ubira posebej v zvezi s sodelovanjem s strankami, da analitiko, pridobljeno iz SAS-a, vdela v operacijske sisteme. In seveda, slišali smo, da je Mike Ferguson govoril o pomembnosti spomina. Celotna ideja tukaj je, da želite to stvar povezati s svojimi operacijami. Ne želite analize v vakuumu, ki ni povezan s podjetjem. To sploh ni vredno.

Če želite analize, ki lahko neposredno vplivajo in optimizirajo delovanje. In če pogledam nazaj - in moram reči, sem takrat že mislil, da je to dobra ideja - v resnici se zdi res zelo pametna ideja. In ugibam, to je resnična prednost, ki jo imate vi In seveda, ta velika zapuščina, ogromna baza za namestitev in dejstvo, da ste bili osredotočeni na vdelavo te analitike v operacijske sisteme, kar pomeni, da je zdaj - in podeljeno, potrebno nekaj dela - prepričan sem, da precej sem delal na tem. Zdaj pa lahko vse te novosti izkoristite in ste resnično v smislu, da lahko vse te stvari operacionalizirate s svojimi strankami. Je to poštena ocena?

Keith: Ja, absolutno. Koncept je, da dobite to zamisel o oblikovanju odločitev ali o odločitvah, kar je, do neke mere, to raziskovalno, znanstveno. Razen, če ne bi zares naredili inženiringa ... Če razmišljate o razvoju avtomobila, imate oblikovalce, ki bodo naredili ta čudovit avtomobil, vendar šele takrat, ko inženirji ta načrt ne postavijo in pred vami ne naredijo dejanskega izdelka. lahko stvari dejansko postavijo na svoje mesto in to je v bistvu tudi SAS storil. Odločitve - postopek oblikovanja odločitev je združil skupaj s postopkom inženiringa odločitev, tako da, ko govorite o pospeševalnikih, konkretno pospeševalcih, veste, če vzamete model, ki ste ga razvili in ga boste znali potisniti ven do Teradata ali pa ga potisnite v Oracle ali Hadoop, z nič odmorom za razvoj modelov, da bi uvedli model. To je ključno, saj se modeli sčasoma razgradijo, natančnost teh modelov. Torej, dlje kot trajate, da ga vzamete v proizvodnjo, to je izguba natančnosti modela.

In potem je drugi del, ki ga želite skozi čas nadzirati in upravljati. Če želite, da opustite modele, ko se postarajo in niso natančni. Želite si ga ogledati, skozi čas preveriti njihovo natančnost in jih na novo zgraditi. In zato imamo orodja za upravljanje modelov, ki so tudi zgoraj, ki resnično sledijo metapodatkom okoli modeliranega procesa. In ljudje so rekli, da je modeliranje, saj veste, takšen koncept kot tovarna modelov, ali kakorkoli želiš, da se imenuje. Stvar je v tem, da metapodatke in upravljanje sprostimo v postopek, in tu najdemo tri velike stvari - ljudem pomagamo zaslužiti denar, prihraniti denar in jih spraviti iz zapora.

Eric: Tudi ta zadnja je precej velika. Vsemu temu se želim izogniti. Torej, govorimo o ...Zastavljam zadnje vprašanje, morda lahko oba skočita na to. Heterogenost našega sveta se bo samo povečala, se mi zdi. Mislim, da bomo zagotovo videli nekaj kristalizacije okoli hibridnih oblačnih okolij. Toda kljub temu boste videli veliko glavnih igralcev, ki se držijo. IBM ne gre nikamor. Oracle ne gre nikamor. SAP ne gre nikamor. In toliko je drugih prodajalcev, ki sodelujejo v tej igri.

Tudi na strani delovanja, kjer imate dobesedno na tisoče in tisoče različnih aplikacij. In slišal sem - večina vas govori o tem, vendar mislim, da bi se oba strinjala s tem, kar sem govorila. Ta trend že opažamo v smislu računske moči v analitičnih motorjih, arhitekturi. Podjetja se že vrsto let pogovarjajo o tem, da bi se lahko vključila v druge motorje in servisirala nekakšno orkestracijsko točko. In najbrž, George, najprej vam ga vrnem. Zdi se mi, da se to ne bo spremenilo. Imeli bomo to heterogeno okolje, kar pomeni, da obstajajo stvari, kot so CRM v realnem času in kakovost podatkov ter upravljanje podatkov. Kot prodajalec boste morali imeti vmesnik z vsemi različnimi orodji. In to bodo kupci želeli. Ne bodo želeli nekaj, kar bi bilo v redu s temi orodji in ni tako v redu s temi orodji. Želijo si Švico MDM in CRM, kajne?

George: Tako je. In je zanimivo, ker smo to zelo dobro sprejeli. Del tega je zgodovina, ki smo jo imeli v vesolju. In očitno smo že delali na vseh drugih bazah podatkov, Teradatah in koščkih sveta. In potem - v postopku izvajanja, natančno tako, kot smo ga naredili, samo tako, da - razpolagate po vseh teh različnih bazah podatkov. Ena od stvari, ki se mi zdi zanimiva, je ta, da imamo nekaj odjemalcev, ki so pravkar peklensko nagnjeni k odpravljanju vseh relacijskih baz podatkov. In to je zanimivo Veste, mislim, v redu je. Zanimivo je. Ampak samo ne vidim, da se to res dogaja v velikih podjetjih. Že dolgo ne vidim tega. Mislim, da je hibrid že dolgo časa tu in na drugi strani naše aplikacije, kjer imamo v svoji platformi za upravljanje kampanj platformo za sporočanje. Pravzaprav smo ga posebej zasnovali. Zdaj smo izdali različico, ki to stori in se lahko zdaj poveže s hibridnim podatkovnim okoljem in poizveduje Hadoop ali poizveduje katero koli bazo podatkov, katero koli analitično bazo podatkov. Torej, mislim, da je to samo val prihodnosti. Strinjam se, da bo virtualizacija zagotovo igrala veliko vlogo pri tem, vendar smo samo - gremo takoj po podatkih v vseh naših aplikacijah.

Eric: V redu, super. In, Keith, to ti bom vrnil. Kaj menite o raznorodnem svetu, s katerim se srečujemo, ko nastopamo kot nogo?

Keith: Ja, res je fascinantno. Mislim, da bomo našli več - ne le na strani upravljanja podatkov - ampak tisto, kar je v resnici fascinantno, je odprtokodna osnova analitike. Tako vidimo organizacije, kot so tehnologije ali tehnologije, kot je Spark, ki se pojavljajo na krovu, in ljudi, ki uporabljajo Python in R ter vse te druge odprtokodne tehnologije. Mislim, da bi to lahko razlagali kot neke vrste konflikt ali grožnjo do neke mere. A resničnost je, da imamo nekaj res čudovitih komplimentov z vsemi temi odprtokodnimi tehnologijami. Mislim, za enega, za boga mi, delujemo na platformah odprtega izvora.

Toda tudi, na primer, da lahko na primer model R vključite v paradigmo SAS, uporabite najboljše iz obeh svetov, kajne? Tako, da vemo, da so nekatere eksperimentalne stvari v akademskem svetu in nekatere razvojne modele izredne in zelo koristne v procesu razvoja modela. Če pa to primerjate z orodjem proizvodnega razreda, opravi veliko čiščenja in kakovosti ter preveri in poskrbi, da so podatki, ki jih podaja model, pravilno sestavljeni, tako da ne odpovedo o izvršbi. In potem, če lahko počnete stvari, kot so prvaki izzivalec modelov z odprtokodnimi modeli. To so stvari, ki si jih prizadevamo omogočiti, in kot del tega resnično raznolikega ekosistema vseh teh tehnologij. Ja, tako je več - za nas gre bolj za to, da bi sprejeli te tehnologije in iskali pohvale.

Eric: No, to so bile fantastične stvari, ljudje. Tu smo šli malo dlje, vendar bi radi prišli do čim več vprašanj. Datoteko z vprašanji bomo danes posredovali našim predstavnikom. Če na katerokoli vprašanje, ki ste ga zastavili, ni bilo odgovorjeno, bomo poskrbeli, da bo nanj odgovoril. In ljudje, to bo zaključeno za leto 2014. Resnično ste na radiu DM jutri in prihodnji teden, potem pa je vse končano in praznični odmor.

Najlepša hvala vsem za vaš čas in pozornost, za držanje skozi vse te čudovite spletne oddaje. Za leto 2015 imamo odlično leto. In kmalu se bomo pogovarjali, ljudje. Hvala še enkrat. Poskrbeli bomo. Adijo.