Kako lahko Analytics izboljša poslovanje? - Prepis TechWise Epizoda 2 - Tehnologija

Vir: Flickr / James Royal-Lawson

Odvzem:

Domačin Eric Kavanagh razpravlja o uporabi analitike pri poslovanju s podatki znanstveniki in vodilnimi v panogi.

Opomba urednikov: To je prepis ene od naših preteklih spletnih oddaj. Naslednja epizoda prihaja hitro, kliknite tukaj in se registrirajte.

Eric Kavanagh: Dame in gospodje, pozdravljeni in dobrodošli še enkrat k 2. epizodi TechWise. Da, res je, čas je, da pridobite modre ljudi! Danes imam na voljo kup res pametnih ljudi, ki nam pomagajo pri tem prizadevanju. Moje ime je seveda Eric Kavanagh. Jaz bom vaš gostitelj, vaš moderator, za to zasedanje ob strelih. Tu imamo veliko vsebine, ljudje. V poslu imamo nekaj velikih imen, ki so bili analitiki v našem prostoru in štirje najbolj zanimivi prodajalci.Danes bomo imeli veliko dobrih ukrepov na razpisu. In seveda, tam v publiki igrate pomembno vlogo pri postavljanju vprašanj.

Torej še enkrat, oddaja je TechWise in današnja tema je "Kako lahko analitika izboljša poslovanje?" Očitno je vroča tema, v kateri bomo poskušali razumeti različne vrste analitike, ki jih lahko počnete, in kako lahko izboljšate svoje delovanje, saj je to na koncu dneva.

Tako lahko vidite sebe zgoraj na vrhu, to je resnično vaše. Dr Kirk Borne, dober prijatelj z univerze George Mason. Je znanstvenik s podatki, ki ima ogromno izkušenj, zelo globoko strokovno znanje na tem področju in pridobivanje podatkov ter velikih podatkov in vse te vrste zabave. In, seveda, imamo svojega dr. Robina Bloorja, glavnega analitika v skupini Bloor. Kdo je treniral kot aktuar pred mnogimi, mnogimi leti. In je bil v zadnjem pol desetletja resnično osredotočen na ves ta velik prostor podatkov in analitični prostor. Minilo je že pet let, odkar smo ustanovili skupino Bloor. Torej čas leti, ko se zabavate.

Zaslišali se bomo tudi z Willom Gormanom, glavnim arhitektom Pentaha; Steve Wilkes, CCO za spletno delovanje; Frank Sanders, tehnični direktor pri MarkLogic; in Hannah Smalltree, direktorica Treasure Data. Kot sem že rekel, to je veliko vsebine.

Kako lahko analitika pomaga pri vašem podjetju? Kako lahko odkrito pomagajo vašemu podjetju? Obstajajo vse vrste načinov, kako analitiko uporabiti za izboljšanje organizacije.

Torej racionalizirati operacije. To je tisto, o čemer ne slišite toliko kot o stvareh, kot so trženje ali povečanje prihodka ali celo prepoznavanje priložnosti. Toda racionalizacija poslovanja je to resnično zelo močna stvar, ki jo lahko naredite za svojo organizacijo, saj lahko določite kraje, kjer lahko na primer nekaj oddajate ali dodate podatke v določen postopek. In to lahko poenostavi tako, da od uporabnika ne zahteva, da pokliče telefon ali nekoga. Obstaja toliko različnih načinov, da lahko racionalizirate svoje delovanje. In vse to resnično pomaga znižati vaše stroške, kajne? To je ključno, saj zniža stroške. Omogoča pa tudi boljšo postrežbo strank.

In če razmišljate o tem, kako so postali nestrpni ljudje, in to vidim vsak dan v smislu, kako ljudje komunicirajo na spletu, tudi z našimi oddajami, ponudniki storitev, ki jih uporabljamo. Potrpežljivost, ki jo imajo ljudje, razpon pozornosti, se iz dneva v dan krajša in krajša. In to pomeni, da se morate kot organizacija odzivati v hitrejših in hitrejših obdobjih, da boste lahko zadovoljili svoje stranke.

Na primer, če je nekdo na vaši spletni strani ali brska poizkusi, da bi kaj našel, če se zmede in odide, no, morda ste pravkar izgubili stranko. In odvisno od tega, koliko plačate za svoj izdelek ali storitev, in morda je to velika stvar. V bistvu je torej, da so poenostavljene operacije, mislim, eden najbolj vročih prostorov za uporabo analitike. In to storite tako, da pogledate številke, zdrobite podatke in ugotovite, na primer: "Hej, zakaj na tej strani našega spletnega mesta izgubljamo toliko ljudi?" "Zakaj imamo nekaj teh telefonskih klicev trenutno?"

In bolj ko se boste lahko na takšne stvari odzvali, boljše bodo možnosti, da se boste znašli nad situacijo in naredili nekaj o tem, preden bo prepozno. Ker je tisto obdobje, ko se nekdo zaradi nečesa vznemirja, je nezadovoljen ali poskuša nekaj najti, vendar je frustriran; tam imate priložnost, da se obrnete do njih, jih pograbite in sodelujete s to stranko. In če to storite na pravilen način s pravimi podatki ali lepo sliko stranke - razumevanje, kdo je ta kupec, kakšna je njihova dobičkonosnost, kakšne so njihove želje - če se boste za to resnično lotili, boste to storili odlična naloga, da zadržite svoje stranke in pridobite nove stranke. In o tem gre.

Torej s tem ga bom v resnici izročil Kirku Borneu, enemu izmed naših danes znanstvenih podatkov. In danes so precej redki, ljudje. Dve od njih smo vsaj na klicu, tako da je velika stvar. Kirk, predal te bom, da se pogovorim o analitiki in kako pomaga pri poslovanju. Pojdi.

Dr Kirk Borne: Pa najlepša hvala, Eric. Me slišiš?

Eric: To je v redu, pojdi naprej.

Dr Kirk: V redu, dobro. Želim si le deliti, če govorim pet minut, in ljudje mahajo z mano. Torej, uvodne pripombe, Eric, da si se resnično navezal na to temo, o čemer bom na kratko spregovoril v naslednjih nekaj minutah, kar je uporaba velikih podatkov in analitike za podatke za odločitve v podporo. Pripomba, ki ste jo podali glede racionalizacije operacij, se mi nekako uvršča v ta koncept operativne analitike, v katerem lahko v vsaki aplikaciji po vsem svetu vidite, ali gre za znanstveno aplikacijo, poslovanje, kibernetsko varnost in ukrepe kazenskega pregona ter vlada, zdravstvo. Ne glede na število krajev, kjer imamo tok podatkov in sprejemamo nekakšen odziv ali odločitev kot reakcijo na dogodke in opozorila in vedenja, ki jih vidimo v tem toku podatkov.

In tako je ena izmed stvari, o kateri bi rad govoril danes, nekako, kako črpate znanje in vpogled iz velikih podatkov, da bi prišli do tiste točke, ko se lahko dejansko odločamo za ukrepanje. In pogosto govorimo o tem v avtomatizaciji. In danes želim avtomatiko zliti s človeškim analitikom v zanki. S tem mislim, medtem ko ima poslovni analitik pomembno vlogo pri stavah, kvalifikacijah, potrjevanju določenih dejanj ali pravil strojnega učenja, ki jih izvlečemo iz podatkov. Toda če pridemo do točke, ko smo prepričani v poslovna pravila, ki smo jih pridobili, in mehanizmi za opozarjanje na nas veljavni, potem lahko to precej spremenimo v avtomatiziran postopek. Pravzaprav izvajamo tisto operativno racionalizacijo, o kateri je govoril Eric.

Torej se malo igram besed, vendar upam, da če sem uspel za vas, sem govoril o izzivu D2D. In D2D, odločitve, ki niso samo podatki, v vseh slabostih, to gledamo na dnu tega diapozitiva, upajmo, da ga lahko vidite, da bi odkrivali in povečali dolarje prihodkov iz naših analitičnih cevovodov.

Torej, v tem smislu imam dejansko to vlogo tržnika pri sebi zdaj, ko delam, in to je; prva stvar, ki jo želite narediti, je opisati podatke, izvleči funkcije, izvleči lastnosti strank ali katere koli osebe, ki jo spremljate v svojem prostoru. Mogoče je pacient v okolju zdravstvene analize. Mogoče je spletni uporabnik, če gledate nekakšno težavo kibernetske varnosti. Toda karakterizirajte in izluščite značilnosti ter nato izvlecite nekaj prepričanja o posamezniku, o tej entiteti. In potem zberete tiste koščke, ki ste jih pravkar ustvarili, in jih zložite v nekakšno zbirko, iz katere lahko nato uporabite algoritme strojnega učenja.

Razlog, da to povem tako, je, da recimo, da imate nadzorno kamero na letališču. Sam video je ogromen, obsežen, poleg tega pa tudi zelo nestrukturiran. Lahko pa izvlečete iz videonadzora, obrazne biometrije in prepoznate posameznike v nadzornih kamerah. Tako lahko na primer na letališču prepoznate določene osebe, lahko jih sledite po letališču tako, da istega človeka navzkrižno prepoznate v več nadzornih kamerah. Tako, da izvlečene biometrične lastnosti, ki jih res rudarite in spremljate, niso dejansko podrobni videoposnetki. Ko pa imate te izvlečke, potem lahko uporabite odločitve o strojnem učenju in analitiki za odločanje o tem, ali morate v določenem primeru ukrepati ali se je nekaj zgodilo napačno ali kaj, kar imate priložnost ponuditi. Če imate na primer trgovino na letališču in vidite, da stranka prihaja tja in veste iz drugih informacij o tej stranki, da se je morda resnično zanimal za nakup stvari v brezcarinski trgovini oz. kaj takega, daj to ponudbo.

Kakšne stvari bi torej mislil z karakterizacijo in potencializacijo? Z karakterizacijo spet mislim na pridobivanje lastnosti in značilnosti v podatkih. In to je mogoče bodisi strojno ustvariti, potem lahko njeni algoritmi dejansko izvlečejo na primer biometrične podpise iz video analize ali analize sentimentov. Svoje mnenje lahko pridobite prek spletnih pregledov ali družbenih medijev. Nekatere od teh stvari so morda ustvarjene s človekom, tako da lahko človek, poslovni analitik, pridobi dodatne funkcije, ki jih bom prikazal v naslednjem diapozitivu.

Nekatere od teh je mogoče množiti. In z množičnim izvajanjem obstaja veliko različnih načinov, kako lahko razmišljate o tem. Ampak zelo preprosto, na primer, vaši uporabniki pridejo na vaše spletno mesto in tam vnesejo iskalne besede, ključne besede in se končajo na določeni strani in dejansko tam preživijo čas na tej strani. Da dejansko vsaj razumejo, da si ogledajo, brskajo ali kliknejo stvari na tej strani. Kar vam pove, je, da je ključna beseda, ki so jo vnesli na samem začetku, deskriptor te strani, ker je kupca pristala na strani, ki jo pričakuje. In tako lahko dodate dodaten podatek, to je, da so stranke, ki uporabljajo to ključno besedo, to spletno stran v naši informacijski arhitekturi dejansko identificirale kot kraj, kjer se vsebina ujema s to ključno besedo.

In zato je množična ponudba še en vidik, ki ga ljudje včasih pozabijo, takšno sledenje krušnim drobtinam vaših strank, tako rekoč; kako se premikajo po svojem prostoru, ne glede na to, ali gre za spletno ali resnično lastnino. In nato uporabite takšno pot, ki jo stranka sprejme kot dodatne informacije o stvareh, ki jih gledamo.

Torej želim reči, da so stvari, ustvarjene s človekom, ali strojno ustvarjene, na koncu vsebovale zaznamek ali označevanje določenih podatkovnih granul ali entitet. Ne glede na to, ali so ti subjekti bolniki v bolnišnici, stranke ali kaj drugega. In tako obstajajo različne vrste označevanja in pripomb. Nekaj tega je o samih podatkih. To je ena izmed stvari, kakšne vrste informacij, kakšne informacije, kakšne lastnosti, oblike, morda ure in vzorci, anomalija, neanomalna vedenja. In nato ekstrahiram nekaj semantike, torej kako se to nanaša na druge stvari, ki jih poznam, ali je ta kupec stranka elektronike. Ta stranka je stranka oblačil. Ali pa ta stranka rad kupuje glasbo.

Tako stranke, ki jim je všeč glasba, tako identificirajo nekaj semantike o tem, imajo radi zabavo. Mogoče bi jim lahko ponudili kakšno drugo zabavno lastnino. Torej razumevanje semantike in tudi neke izvornosti, ki v bistvu pravi: od kod je prišlo, kdo je podal to trditev, kdaj, kateri datum in v kakšnih okoliščinah?

Torej, ko imate vse te opombe in lastnosti, dodajte temu naslednji korak, to je prevara, vrsta kdo, kaj, kdaj, kje in zakaj. Kdo je uporabnik? Na katerem kanalu so prišli? Kakšen je bil vir informacij? Kakšne ponovne uporabe smo videli v tem določenem informativnem ali podatkovnem izdelku? In kaj je, kakšna, vrednost poslovnega procesa? Nato zberite te stvari in jih upravljajte ter dejansko pomagajte ustvariti bazo podatkov, če želite tako razmišljati. Omogočite jim iskanje, ponovno uporabo z drugimi poslovnimi analitiki ali avtomatiziranim postopkom, ki bo naslednjič, ko vidim te sklope funkcij, sistem samodejno ukrepal. In tako pridemo do takšne operativne analitične učinkovitosti, vendar bolj zbiramo koristne, izčrpne informacije in jih nato obdelamo za te primere uporabe.

Pripeljemo se k poslu. Izvajamo analitiko podatkov. Iščemo zanimive vzorce, presenečenja, novosti outliers, anomalije. Iščemo nove razrede in segmente v populaciji. Iščemo povezave in korelacije ter povezave med različnimi entitetami. In potem uporabimo vse to, da poganjamo naš postopek odkrivanja, odločanja in odločanja o dolarjih.

Torej, tu smo spet dobili zadnji podatkovni diapozitiv, ki ga imam samo v bistvu, povzamem, da poslovni analitik ostane v zanki, spet tega ne črpaš človeka in vse pomembno je, da človek ostane tam.

Torej te lastnosti, vse jih nudijo stroji ali človeški analitiki ali celo množično izvajanje. To kombinacijo stvari uporabljamo za izboljšanje svojih vadbenih sklopov za naše modele in na koncu s bolj natančnimi napovednimi modeli, manj lažnimi pozitivnimi in negativnimi učinki, učinkovitejšim vedenjem, učinkovitejšimi intervencijami pri naših kupcih ali kdor koli.

Na koncu dneva res samo kombiniramo strojno učenje in velike podatke s to močjo človekove kognicije, od koder prihaja takšen del komentarjev o označevanju. In to lahko vodi skozi vizualizacijo in vizualno analitiko orodij ali potopnih podatkovnih okolij ali množice. In na koncu dneva to, kar v resnici počne, ustvarja naše odkritje, vpogled in D2D. In to so moji komentarji, zato hvala za posluh.

Eric: Hej, to se sliši odlično in naj pustim naprej ključe doktorju Robinu Bloorju, da tudi on poda svojo perspektivo. Ja, rad bi slišal, da komentiraš ta koncept racionalizacije operacij in govoriš o operativni analitiki. Mislim, da je to veliko področje, ki ga je treba precej temeljito raziskati. In verjetno pred Robinom, pripeljem te nazaj, Kirk. Zahteva, da imate nekaj pomembnih sodelovanj med različnimi akterji v podjetju, kajne? Morate govoriti z operativnimi ljudmi; moraš dobiti svoje tehnične ljudi. Včasih dobite svoje marketinške ljudi ali ljudi iz spletnega vmesnika. To so običajno različne skupine. Imate kakšne najboljše prakse ali predloge, kako nekako spraviti vsakogar v igro?

Dr Kirk: No, mislim, da to izhaja iz poslovne kulture sodelovanja. Pravzaprav govorim o treh vrstah kulture analitične kulture. Eno je ustvarjalnost; drugo je radovednost in tretje je sodelovanje. Torej želite ustvarjalne, resne ljudi, vendar morate tudi te ljudi spraviti v sodelovanje. In res se začne od vrha, takega oblikovanja te kulture z ljudmi, ki bi morali odkrito deliti in sodelovati pri doseganju skupnih ciljev podjetja.

Eric: Vse skupaj je smiselno. In res moraš dobiti dobro vodstvo na vrhu, da se to zgodi. Torej, pojdimo naprej in ga predajmo dr. Bloorju. Robin, tla so tvoja.

Dr. Robin Bloor: V redu. Hvala za uvod, Eric. V redu, kako to počnejo, kažejo, ker imamo dva analitika; Ogledam predstavitev analitika, ki je drugi fantje ne. Vedela sem, kaj bo Kirk rekel, in grem povsem drug kot, da se ne bomo preveč prekrivali.

Torej, o čemer pravzaprav govorim ali nameravam tukaj govoriti, je vloga analitika podatkov v primerjavi z vlogo poslovnega analitika. In način, kako ga do neke mere označujem, je nekako stvar Jekyll-a in Hyde-a. Razlika je le v tem, da znanstveniki s podatki vsaj teoretično vedo, kaj počnejo. Medtem ko poslovni analitiki niso tako, v redu s tem, kako deluje matematika, v kaj se lahko zaupa in kaj ni mogoče zaupati.

Torej, preidimo se na razlog, da to počnemo, vzrok, da je analiza podatkov nenadoma postala velika stran poleg dejstva, da lahko dejansko analiziramo zelo veliko količino podatkov in potegnemo podatke zunaj organizacije; se splača. Na to, kako gledam na to - in mislim, da to šele postaja slučaj, vsekakor pa mislim, da gre za primer - je analiza podatkov resnično raziskava in razvoj. Tisto, kar dejansko delaš na tak ali drugačen način z analizo podatkov, je, da gledaš na poslovni proces naenkrat ali pa je to interakcija s stranko, pa naj bo to način poslovanja tvojega maloprodaje, način uvajanja vaše trgovine. V resnici ni pomembno, v čem je problem. Ogledujete določen poslovni postopek in ga poskušate izboljšati.

Rezultat uspešnih raziskav in razvoja je postopek sprememb. Če želite, si lahko proizvodnjo zamislite kot običajen primer tega. Ker v proizvodnji ljudje zbirajo informacije o vsem, da bi poskusili in izboljšali postopek izdelave. Mislim pa, da se vse, kar se dogaja ali kar se dogaja pri velikih podatkih, vse to zdaj uporablja za vsa podjetja na kakršen koli način, na kar si kdo lahko misli. Tako da je skoraj vsak poslovni postopek pripravljen za pregled, če lahko zberete podatke o njem.

To je ena stvar. Če želite, se to poraja pri vprašanju analize podatkov. Kaj lahko analiza podatkov naredi za podjetje? No, posel lahko popolnoma spremeni.

Ta poseben diagram, ki ga ne bom opisoval v nobeni globini, je to diagram, ki smo ga zasnovali kot vrhunec raziskovalnega projekta, ki smo ga naredili v prvih šestih mesecih letošnjega leta. To je način predstavljanja velike podatkovne arhitekture. In še nekaj stvari, ki jih je vredno izpostaviti, preden nadaljujem na naslednji diapozitiv. Tu sta dva pretoka podatkov. Eden od njih je tok podatkov v realnem času, ki poteka po vrhu diagrama. Drugi je počasnejši tok podatkov, ki poteka po dnu diagrama.

Poglejte na dnu diagrama. Imamo Hadoop kot hranilnik podatkov. Imamo različne baze podatkov. Tam imamo cel podatek, na njem pa se dogaja cel kup dejavnosti, med katerimi je večina analitičnih dejavnosti.

Bistvo, ki ga tukaj delam, in edino, kar tukaj resnično želim, je, da je tehnologija težka. Ni preprosto. Ni lahko. Vsak, ki je nov v igri, ni nekaj, kar lahko dejansko samo sestavi. To je dokaj zapleteno. In če boste ustanavljali podjetje za izvajanje zanesljive analitike v vseh teh procesih, se to ne bo zgodilo posebej hitro. V mešanico bo treba dodati veliko tehnologije.

V redu. Vprašanje, kaj je podatkovni znanstvenik, bi lahko trdil, da sem podatkovni znanstvenik, ker sem bil dejansko izučen iz statistike, preden sem se kdaj usposobil za računalništvo. In aktuarsko delo sem opravljal nekaj časa, tako da vem način organizacije podjetja, statistične analize, tudi zato, da bi se sam vodil. To ni nepomembna stvar. In s človeške in tehnološke strani je veliko najboljših praks.

Torej, ko sem postavil vprašanje "kaj je podatkovni znanstvenik", sem postavil sliki Frankenstein preprosto zato, ker gre za kombinacijo stvari, ki jih je treba povezati. Vključeno je vodenje projektov. V statistiki je globoko razumevanje. Obstaja domensko poslovno znanje, ki je večja težava poslovnega analitika kot podatkovnega znanstvenika. Obstajajo izkušnje ali potreba, da razumemo arhitekturo podatkov in da lahko zgradimo arhitekt podatkov in je vključen inženiring programske opreme. Z drugimi besedami, verjetno gre za ekipo. Verjetno ni posameznik. In to pomeni, da gre verjetno za oddelek, ki ga je treba organizirati in o njegovi organizaciji je treba razmišljati dokaj obsežno.

Vmetavanje v mešanico dejstva strojnega učenja. Ne bi mogli storiti, kar pomeni, da strojno učenje ni novo v smislu, da je večina statističnih tehnik, ki se uporabljajo pri strojnem učenju, znana že desetletja. Kar nekaj je novih, mislim, da so nevronske mreže sorazmerno nove, mislim, da so stare le 20 let, zato so nekatere razmeroma nove. Toda težava pri strojnem učenju je bila, da v resnici nismo imeli računalniške moči za to. Razen vsega drugega se je zgodilo, da je napajanje računalnika na mestu. In to pomeni ogromno tega, kar smo, recimo, znanstveniki podatkov storili že prej v smislu modeliranja situacij, vzorčenja podatkov in nato predelave, da bi naredili globljo analizo podatkov. Pravzaprav lahko napajanje računalnika v nekaterih primerih preprosto vržemo nanj. Samo izberite algoritme strojnega učenja, vrzite jih na podatke in poglejte, kaj se izkaže. In to lahko naredi poslovni analitik, kajne? Toda poslovni analitik mora razumeti, kaj počnejo. Mislim, mislim, da je to vprašanje res bolj kot karkoli drugega.

No, to je samo to, da o podjetju vemo več o njegovih podatkih kot o kakršnih koli drugih sredstvih. Einstein tega ni rekel, to sem rekel. Samo njegovo sliko sem postavil za verodostojnost. Toda situacija se dejansko začne razvijati tista, kjer bo tehnologija, če se pravilno uporablja, in matematika, če se pravilno uporablja, lahko vodila podjetje kot vsak posameznik. To smo si ogledali pri IBM-u. Najprej je lahko v šahu premagal najboljše fante, nato pa je lahko v Jeopardyju premagal najboljše; sčasoma pa bomo lahko premagali najboljše fante v vodenju podjetja. Statistični podatki bodo na koncu zmagali. In težko je videti, kako se to ne bo zgodilo, to se še ni zgodilo.

Torej, kar govorim, in to je nekako popolna moja predstavitev, sta ti dve zadevi podjetja. Prva je, ali lahko pravilno razumete tehnologijo? Ali lahko tehnologijo delate za ekipo, ki ji bo pravzaprav lahko predsedovala in pridobila koristi za podjetje? In potem drugič, ali lahko spraviš ljudi? In oboje je to vprašanje. In so vprašanja, ki do zdaj niso, pravijo, da so rešena.

V redu, Eric, vrnil ti ga bom. Ali pa bi ga morda posredoval Willu.

Eric: Pravzaprav ja. Hvala, Will Gorman. Ja, tako boš, Will. Pa poglejmo. Naj vam dam ključ za WebEx. Torej, kaj se dogaja? Pentaho, očitno, fantje ste že nekaj časa in odprtokodni BI je tak, kje ste začeli. Toda dobili ste veliko več, kot ste nekoč, zato poglejmo, kaj imate danes za analitiko.

Will Gorman: Vsekakor. Pozdravljeni vsi! Moje ime je Will Gorman. Jaz sem glavni arhitekt v Pentahu. Za tiste, ki niste slišali za nas, sem pravkar omenil, da je Pentaho veliko podjetje za integracijo in analitiko podatkov. Delamo že deset let. Naši izdelki so se razvijali vzporedno z veliko podatkovno skupnostjo, začenši z odprtokodno platformo za integracijo podatkov in analitiko, inovacijo s tehnologijami, kot sta Hadoop in NoSQL, še preden so se okoli teh tehnologij oblikovali komercialni subjekti. Zdaj imamo več kot 1500 komercialnih kupcev in veliko več proizvodnih sestankov kot rezultat naših inovacij v zvezi z odprtokodno kodo.

Naša arhitektura je zelo vgradljiva in razširljiva, namensko zasnovana tako, da je fleksibilna, saj se tehnologija velikih podatkov še posebej razvija zelo hitro. Pentaho ponuja tri glavna področja izdelkov, ki sodelujejo pri reševanju primerov uporabe velikih podatkov v analizi.

Prvi izdelek na področju naše arhitekture je Pentaho Data Integration, ki je usmerjen v podatkovnega tehnologa in podatkovne inženirje. Ta izdelek ponuja vizualno izkušnjo povleci in spusti za definiranje podatkovnih cevovodov in procesov za orkestriranje podatkov tudi v velikih podatkovnih in tradicionalnih okoljih. Ta izdelek je lahka, metapodatkovna baza, platforma za integracijo podatkov, zgrajena na Javi in jo je mogoče namestiti kot postopek v MapReduce ali YARN ali Storm in na številnih drugih paketnih in v realnem času platformah.

Naše drugo področje izdelkov je okoli vizualne analitike. S to tehnologijo lahko organizacije in proizvajalci originalnih proizvajalcev sodobnim brskalnikom in tabličnim računalnikom ponujajo bogato vizualizacijo in analitično izkušnjo za poslovne analitike in poslovne uporabnike, kar omogoča ad hoc ustvarjanje poročil in nadzornih plošč. Kot tudi predstavitev slikovne plošče in poročil, ki je popolna za slikovne pike.

Naše tretje področje izdelkov se osredotoča na prediktivno analitiko, namenjeno znanstvenikom podatkov, algoritmom strojnega učenja. Kot smo že omenili, lahko tudi nevronske mreže in podobno vključimo v okolje za preoblikovanje podatkov, kar podatkovnim znanstvenikom omogoča prehod iz modeliranja v proizvodno okolje, kar omogoča dostop do napovedi in to lahko zelo hitro, zelo hitro vpliva na poslovne procese.

Vsi ti izdelki so tesno integrirani v eno samo agilno izkušnjo in našim podjetnim strankam omogočajo prilagodljivost, ki jo potrebujejo za reševanje poslovnih težav. Opažamo hitro razvijajočo se pokrajino velikih podatkov v tradicionalnih tehnologijah. Od nekaterih podjetij iz velikega podatkovnega prostora slišimo, da se EDW bliža koncu. Pravzaprav je to, kar vidimo pri naših podjetniških kupcih, da morajo vnesti velike podatke v obstoječe poslovne in IT procese in jih ne nadomestiti.

Ta preprost diagram prikazuje točko v arhitekturi, ki jo pogosto vidimo, to je vrsta arhitekture uvajanja EDW z integracijo podatkov in primeri uporabe BI. Zdaj je ta diagram podoben Robininemu diapozitivu o veliki podatkovni arhitekturi, vključuje podatke v realnem času in pretekle podatke. Ko se pojavljajo novi viri podatkov in zahteve v realnem času, vidimo velike podatke kot dodaten del celotne IT arhitekture. Ti novi viri podatkov vključujejo strojno ustvarjene podatke, nestrukturirane podatke, standardni obseg in hitrost ter raznolikost zahtev, ki jih slišimo pri velikih podatkih; se ne ujemajo s tradicionalnimi procesi EDW. Pentaho tesno sodeluje s Hadoopom in NoSQL, da bi poenostavil zaužitje, obdelavo podatkov in vizualizacijo teh podatkov ter mešanje teh podatkov s tradicionalnimi viri, da bi kupcem omogočili popoln vpogled v njihovo podatkovno okolje. To počnemo na urejen način, tako da IT lahko ponudi popolno analitično rešitev za svojo dejavnost.

Na koncu želim poudariti našo filozofijo glede velike analize in integracije podatkov; verjamemo, da te tehnologije bolje sodelujejo z enotno arhitekturo, kar omogoča številne primere uporabe, ki sicer ne bi bili možni. Podatkovna okolja naših strank so več kot le veliki podatki, Hadoop in NoSQL. Vsi podatki so poštena igra. In veliki viri podatkov morajo biti na voljo in sodelovati, da vplivajo na poslovno vrednost.

Nenazadnje menimo, da je za učinkovito reševanje teh poslovnih težav v podjetjih s pomočjo podatkov, IT in poslovnih področij potrebno delovati skupaj z vodenim, mešanim pristopom k analizi velikih podatkov. Najlepša hvala, ker ste nam dali čas za pogovor, Eric.

Eric: Staviš. Ne, to je dobro. Želim se vrniti na tisto stran vaše arhitekture, ko pridemo do vprašanj in vprašanj. Pa pojdimo skozi preostanek predstavitve in najlepša hvala za to. Fantje se zagotovo hitro premikate zadnjih nekaj let, to moram reči zagotovo.

Torej, Steve, naj grem naprej in ti ga izročim. In tam kliknite na puščico navzdol in pojdite po njej. Torej, Steve, dam ti ključe. Steve Wilkes, samo kliknite tisto najbolj oddaljeno puščico na tipkovnici.

Steve Wilkes: Tu smo.

Eric: Tako.

Steve: To je super uvod, ki ste mi ga dali.

Eric: Ja.

Steve: Torej sem Steve Wilkes. Jaz sem CCO pri WebAction. Bili smo šele zadnjih nekaj let in od takrat zagotovo tudi hitro napredujemo. WebAction je platforma za analitiko velikih podatkov v realnem času. Eric je že prej omenil, kako pomemben je realni čas in kako v realnem času dobivajo vaše prijave. Naša platforma je zasnovana za izdelavo aplikacij v realnem času. In omogočiti naslednji generaciji aplikacij, ki jih poganjajo podatki, ki jih je mogoče graditi postopno in omogočiti ljudem, da gradijo nadzorne plošče iz podatkov, pridobljenih iz teh aplikacij, vendar s poudarkom na realnem času.

Naša platforma je pravzaprav celovita platforma od konca do konca, ki naredi vse od zbiranja podatkov, obdelave podatkov, pa vse do vizualizacije podatkov. Omogoča več različnih vrst ljudi v našem podjetju, da skupaj ustvarijo prave aplikacije v realnem času in jim dajo vpogled v dogajanje v njihovem podjetju, kot se je zgodilo.

In to se nekoliko razlikuje od tistega, kar je večina ljudi videla pri velikih podatkih, tako da je bil tradicionalni pristop - no, tradicionalen zadnjih nekaj let - pristop z velikimi podatki, da bi ga zajeli iz celega števila različnih virov in nato ga zložite v velik rezervoar ali jezero ali karkoli želite. Nato ga obdelajte, ko morate pognati poizvedbo; izvajati obsežne zgodovinske analize ali celo samo ad hoc poizvedovanje o velikih količinah podatkov. Zdaj to deluje za določene primere uporabe. Če pa želite biti proaktivni v svojem podjetju, če želite dejansko povedati, kaj se dogaja, namesto da ugotovite, kdaj je šlo kaj narobe proti koncu dneva ali koncu tedna, se morate resnično premakniti v realnem času.

In to malo spremeni stvari naokoli. Obdelavo premakne na sredino. Tako učinkovito jemljete tok velikih količin podatkov, ki se nenehno ustvarjajo v podjetju, in jih obdelujete, ko jih dobite. In ker ga obdelujete, ko ga dobite, vam ni treba vsega shranjevati. Lahko samo shranite pomembne podatke ali stvari, ki jih morate zapomniti, da se je dejansko zgodilo. Če torej sledite GPS lokaciji vozil, ki se premikajo po cesti, vam ni vseeno, kje so vsako sekundo, ni vam treba shranjevati, kje so vsako sekundo. Samo skrbeti morate, ali so zapustili to mesto? So prispeli na to mesto? So avtocesto zapeljali ali ne?

Zato je zelo pomembno upoštevati, da ko se pridobiva vse več podatkov, potem trije Vs. Hitrost v osnovi določa, koliko podatkov ustvari vsak dan. Več ustvarjenih podatkov ima več, kar morate shraniti. In več morate shraniti, dlje časa je potrebno obdelati. Če pa ga lahko obdelaš, kot ga dobiš, potem dobiš res veliko korist in lahko na to reagiraš. Lahko vam rečejo, da se stvari dogajajo, namesto da jih pozneje iščete.

Torej je naša platforma zasnovana tako, da je zelo razširljiva. Ima tri glavne kose - prevzemni kos, kos za obdelavo in nato kosov za vizualizacijo platforme. Na strani pridobitve ne gledamo samo na strojno ustvarjene podatke dnevnikov, kot so spletni dnevniki ali aplikacije, ki vsebujejo vse druge dnevnike, ki se ustvarjajo. Lahko tudi vstopimo in spremenimo zajem podatkov iz baz podatkov. Torej, kar nam v bistvu omogoča, smo videli stran ETL, ki bo Will predstavila, in tradicionalni ETL, morate začeti poizvedovati po bazah podatkov. Lahko nam povejo, kdaj se v bazi zgodijo stvari. Spremenimo ga in zajamemo in prejmemo te dogodke. Potem so tu očitno podatki o družabnih virih in napravah v živo, ki se vam prenašajo preko vtičnic TCP ali ACDP.

Obstaja na tone različnih načinov pridobivanja podatkov. Ko govorimo o glasnosti in hitrosti, vidimo količine, ki so milijarde dogodkov na dan, kajne? Torej gre za velike, velike količine podatkov, ki prihajajo in jih je treba obdelati.

To obdeluje kopica naših strežnikov. Vsi strežniki imajo isto arhitekturo in so vsi sposobni delati iste stvari. Lahko pa jih konfigurirate tako, da delajo različne stvari. Znotraj strežnikov imamo plast za obdelavo poizvedb s hitro hitrostjo, ki vam omogoča, da naredite analitiko v realnem času na podatkih, obogatite podatke, popravite dogodke, spremljate stvari, ki se dogajajo v časovnih oknih, naredite napoved analitika na podlagi vzorcev, ki jih vidimo v podatkih. In da se lahko nato podatki shranijo na različnih mestih - tradicionalni RDBMS, skladišče podatkov za podjetja, Hadoop, velika podatkovna infrastruktura.

Isti podatki v živo se lahko uporabljajo tudi za napajanje aplikacij, ki jih vodijo podatki v realnem času. Te aplikacije si lahko v realnem času ogledajo, kaj se dogaja, in ljudi lahko opozorijo tudi, ko se zgodijo pomembne stvari. Torej, namesto da bi šli na koncu dneva in ugotovili, da se je res zgodilo nekaj slabega, se lahko na to opozorite drugič, ko ga opazimo in gre naravnost na stran, da ugotovite, kaj je nadaljevati.

Torej popolnoma spremeni paradigmo iz tega, da je treba analizirati podatke po dejstvu, da jih lahko povemo, ko se dogajajo zanimive stvari. Našo platformo lahko nato uporabimo za izdelavo podatkovno vodenih aplikacij. In tu se res osredotočamo na to, da gradimo te aplikacije. Da lahko stranke, s kupci, z različnimi različnimi partnerji pokažejo resnično vrednost pri analizi podatkov v realnem času. Tako ljudem, ki na primer uporabljajo spletne strani, omogoča, da skozi čas spremljajo porabo kupcev in zagotavljajo, da je kakovost storitve dosežena, da opazijo goljufije ali pranje denarja v realnem času, da opazijo več prijav ali poskusi kraje in tovrstni varnostni dogodki za upravljanje stvari, kot so sprejemniki ali druge naprave, bankomati za spremljanje le-teh v realnem času zaradi napak, ki se lahko zgodijo, se bodo v prihodnosti zgodili na podlagi napovedne analize. In to se vrne na racionalizacijo operacij, ki jo je prej omenil Eric, da boste lahko opazili, kdaj se bo kaj zgodilo, in organizirali svoje podjetje, da bi te stvari popravili, namesto da bi nekoga morali poklicati, da dejansko stori nekaj po tem, kar je veliko dražje.

Potrošniška analitika je še en del, s katerim lahko veste, kdaj stranka kaj počne, medtem ko je še vedno tam v vaši trgovini. Podatki, poslani poslovodstvu, da bodo lahko v realnem času spremljali porabo virov in spreminjali, kje stvari tečejo, in da bi lahko vedeli, kdaj bodo stvari izpadle veliko bolj pravočasno.

Torej, to so naši izdelki na kratko in prepričan sem, da bomo na nekaj sej vrnili vprašanja o tem. Hvala vam.

Eric: Ja, res. Odlično opravljeno. Vredu dobro. In zdaj na naslednjem postanku v našem strelovodu, Mark Mark Sanders kliče iz MarkLogića. O teh fantih vem že vrsto let, zelo, zelo zanimiva tehnologija baz podatkov. Frank, prenašam ti ga. Samo kliknite kjer koli v tem. Uporabite puščico navzdol na tipkovnici in se odpravite na dirke. Izvolite.

Frank Sanders: Najlepša hvala, Eric. Kot je Eric omenil, sem s podjetjem MarkLogic. In kar počne MarkLogic je, da zagotovimo podatkovno bazo podjetja. In morda je najpomembnejša sposobnost, ki jo v zvezi s tem predstavljamo, zmožnost dejanskega združevanja vseh teh različnih virov informacij, da bi te podatke analizirali, iskali in uporabljali v sistemu, podobnem tistemu, kar si navajeni na tradicionalne relacijske sisteme, kajne?

Nekatere ključne lastnosti, ki jih v zvezi s tem predstavljamo, so vse funkcije podjetja, ki jih pričakujete od tradicionalnega sistema za upravljanje podatkovnih baz, vaša varnost, HA, DR, vaša varnostna kopija so shranjene, vaše premoženje transakcij. Prav tako pa tudi zasnova, ki vam omogoča spreminjanje obsega v oblaku ali v blagovni strojni opremi, tako da lahko upravljate s količino in hitrostjo informacij, s katerimi boste morali ravnati, če želite graditi in analizirati to vrsto informacij.

In morda je najpomembnejša sposobnost to dejstvo, da smo shematični. To praktično pomeni, da se vam ni treba odločiti, kako bodo izgledali vaši podatki, ko začnete graditi aplikacije ali ko začnete združevati te informacije. Toda sčasoma lahko vključite nove vire podatkov, vlečete dodatne informacije in nato uporabite vzvod in poizvedbo ter analizirate te podatke tako, kot bi to storili od vsega, kar je bilo od začetka zasnove. V redu?

Kako to storimo? Kako vam dejansko omogočimo, da naložite različne vrste informacij, bodisi to, RDF trojke, geoprostorske podatke, časovne podatke, strukturirane podatke in vrednosti ali dvojiške datoteke. In odgovor je, da smo naš strežnik pravzaprav zgradili od vsega začetka, da bi vključili iskalno tehnologijo, ki vam omogoča, da vnesete informacije in te informacije sami opišejo, in vam omogoča, da te podatke poiščete, pridobite in iščete ne glede na njihov vir ali obliko .

In kaj to praktično pomeni, je to - in zakaj je to pomembno, ko delate analize - ali so analitike in informacije najbolj pomembne, ko so pravilno prilagojene in ciljno usmerjene, kajne? Tako je zelo pomemben ključni del kakršne koli analitike iskanje, ključni del pa je analitika iskanja. Ne morete res imeti enega brez drugega in uspešno doseči tisto, kar ste si zadali. Prav?

Na kratko bom govoril o treh in pol različnih primerih uporabe kupcev, ki jih imamo pri proizvodnji, ki MarkLogic uporabljajo za tovrstno analitiko. V redu. Torej je prva tovrstna stranka okrožje Fairfax. In County Fairfax je pravzaprav sestavil dve ločeni aplikaciji. Ena temelji na izdajanju dovoljenj in upravljanju premoženja. In druga, ki je verjetno nekoliko bolj zanimiva, je prijava za policijske dogodke okrožja Fairfax. Vloga za policijske dogodke dejansko je, da zbira informacije, kot so policijska poročila, poročila in pritožbe državljanov, tviteraši, druge informacije, ki jih imajo, kot so spolni prestopniki, in vse druge informacije, do katerih imajo dostop iz drugih agencij in virov. Nato jim omogočijo, da to vizualizirajo in to predstavijo državljanom, da bodo lahko iskali in si ogledali različne kriminalne dejavnosti, policijske dejavnosti, vse z enim poenotenim geoprostorskim indeksom, kajne? Torej si lahko zastavite vprašanja, "kakšna je stopnja kaznivih dejanj v petih miljah" ali "kateri zločini so se zgodili v petih miljah od moje lokacije?" V redu.

Še en uporabnik, ki ga imamo, je tudi OECD. Zakaj je OECD pomemben za ta pogovor, ker je poleg vsega, kar smo omogočili okrožju Fairfax v smislu združevanja informacij, kajne; vse informacije, ki bi jih dobili iz vseh različnih držav, ki so članice OECD, o katerih poročajo z ekonomske perspektive. Pravzaprav smo postavili ciljno vajo v to, kajne. Tako lahko na levi strani opazimo, da si Dansko posebej ogledamo, nad njo pa lahko vidite cvetni list, ki ga postavlja na različne osi. Prav? In to je vse dobro in dobro. Toda OECD je naredil korak naprej.

Poleg teh čudovitih vizualizacij in združevanja vseh teh informacij vam dejansko omogočajo, da v realnem času ustvarite svoj lastni indeks boljšega življenja, ki je primeren na desni strani. Kar imate tam, imate nabor drsnikov, ki vam dejansko omogočajo, da naredite stvari, kot so razvrstitev, kako pomembna so vam stanovanja ali dohodek, delovna mesta, skupnost, izobraževanje, okolje, državljanska angažiranost, zdravje, življenjsko zadovoljstvo, varnost in vaše delo življenjsko ravnovesje. In dinamično glede na to, kako dejansko vnašate te podatke in tehta te stvari, MarkLogic s svojo sposobnostjo indeksiranja in poizvedovanja v realnem času dejansko spreminja, kako se uvršča vsaka od teh držav, da vam predstavi, kako dobro je vaše državo ali vaš življenjski zemljevid skozi določeno državo. V redu?

In zadnji primer, ki ga bom delil, je MarkMail. In kar MarkMail resnično želi dokazati, je, da lahko zagotovimo te zmožnosti in lahko naredimo vrsto analize ne le na strukturiranih informacijah ali informacijah, ki prihajajo v teh številkah, ampak dejansko na bolj ohlapno strukturiranih, nestrukturiranih informacijah, kajne? Stvari, kot so s. In to, kar smo videli tukaj, dejansko vlečemo informacije, kot so geolokacija, er, podjetje, staki in koncepti, kot je Hadoop, ki se omenjajo v okviru in nato vizualizirajo na zemljevidu, pa tudi gledamo, kdo so ti posamezniki in kaj seznam čez to, poslano in datum. Tukaj gledate na stvari, ki tradicionalno niso strukturirane, ki so morda slabo strukturirane, vendar še vedno lahko iz teh informacij pridobijo nekaj strukturirane analize, ne da bi se morali podrobno potruditi in jih strukturirati ali obdelati na Čas. In to je to.

Eric: Hej, v redu. In imamo še enega. Hannah Smalltree imamo iz Treasure Data, zelo zanimivega podjetja. In to je veliko odlične vsebine, ljudje. Najlepša hvala vsem, ki ste nam prinesli tako dobre diapozitive in tako dobre podrobnosti. Hannah, zato sem ti samo dal tipke, kliknil kjerkoli in uporabil puščico navzdol na tipkovnici. Dobil si ga. Vzemi stran.

Hannah Smalltree: Najlepša hvala, Eric. To je Hannah Smalltree iz zakladov. Sem režiser Treasure Data, vendar imam preteklost kot tehnološki novinar, kar pomeni, da cenim dve stvari. Prvič, to je lahko dolgo, da prebrodimo veliko različnih opisov tehnologije, in vse skupaj lahko zveni, kot da teče skupaj, zato se resnično želim osredotočiti na naš diferencial. In aplikacije v resničnem svetu so zelo pomembne, zato cenim, da so se vsi moji kolegi zelo veselili tega.

Treasure Data je nova vrsta storitve velikih podatkov. V programski opremi kot model storitve ali modela z upravljanimi storitvami smo v celoti v oblaku. Torej, kot je dejal dr. Bloor, je ta tehnologija lahko zelo naporna in lahko vzamete veliko časa, da vstanete in tečete. S pomočjo Treasure Data lahko zelo hitro dobite vse te vrste zmogljivosti, ki jih lahko dobite v okolju Hadoop ali zapletenem okolju, ki je v prostoru, kar je resnično koristno za te nove pobude za velike podatke.

Zdaj govorimo o naši storitvi v nekaj različnih fazah. Ponujamo vam nekaj zelo edinstvenih zmogljivosti zbiranja za zbiranje pretočnih podatkov, zlasti podatkov o dogodkih, drugih vrst sprotnih podatkov. Govorili bomo malo več o teh vrstah podatkov. To je velik diferencial za našo storitev. Ko zaidete v velike podatke ali če ste že v njih, veste, da zbiranje teh podatkov ni nepomembno. Ko vsak trenutek razmišljate o avtomobilu s 100 senzorji podatkov, tudi tistih 100 senzorjev na vsakih deset minut, se to hitro sešteje, ko začnete pomnoževati količino izdelkov, ki jih imate tam s senzorji, in hitro postane zelo težko upravljati. Tako se pogovarjamo s strankami, ki jih imajo na milijone, imamo kupce, ki imajo na dan milijarde vrstic podatkov, ki nam jih posredujejo. In to počnejo kot alternativo, da bi sami poskusili in upravljali v zapleteni Amazonovi infrastrukturi ali jo celo poskusili spraviti v svoje okolje.

Imamo svoje okolje za shranjevanje v oblaku. Mi ga upravljamo. Spremljamo ga. Imamo skupino ljudi, ki izvaja vse, kar je potrebno za vas. In tako se podatki pretakajo, gre v naše upravljano okolje za shranjevanje.

Nato smo vgradili poizvedbene motorje, tako da lahko vaš analitik sproži in izvaja poizvedbe ter opravi začetno odkrivanje in raziskovanje podatkov proti podatkom. Za zdaj imamo nekaj različnih iskalnih motorjev. Lahko uporabite sintakso SQL, ki jo vaši analitiki verjetno poznajo in imajo radi, da odkrijete nekaj osnovnih podatkov, naredite nekaj bolj zapletene analitike, ki so uporabniško definirane funkcije ali celo naredite stvari tako enostavno, kot da bi podatke združili in jih zmanjšali, tako da ga lahko vnesete v svoje obstoječe okolje podatkovnega skladišča.

Lahko tudi povežete obstoječa BI orodja, vaš Tableau, ki je velik naš partner; vendar se lahko večina BI-jev, orodij za vizualizacijo ali analitiko poveže prek naših industrijskih standardnih gonilnikov JDBC in ODBC. Tako vam ponuja ta celoten nabor velikih podatkovnih zmogljivosti. Rezultate poizvedb ali naloge podatkov lahko kadar koli brezplačno izvozite, tako da lahko te podatke enostavno integrirate. To obravnavajte kot rafinerijo podatkov. Rad razmišljam o tem bolj kot o rafineriji kot o jezeru, ker z njim dejansko lahko počnete stvari. Lahko greste skozi, najdete dragocene informacije in jih nato vnesete v svoje poslovne procese.

Naslednji diapozitiv govorimo o treh VS velikih podatkov - nekateri pravijo štiri ali pet. Naše stranke se ponavadi spopadajo z obsegom in hitrostjo podatkov, ki prihajajo v njih. In zato, da bi dobili natančne podatke o vrstah podatkov - Clickstream, dnevniki spletnega dostopa, mobilni podatki so za nas veliko področje, dnevniki mobilnih aplikacij, dnevniki aplikacij iz spletnih aplikacij ali drugih aplikacij, dnevniki dogodkov. Vedno več pa imamo veliko strank, ki se ukvarjajo s senzorskimi podatki, torej iz nosljivih naprav, izdelkov, avtomobilov in drugih vrst strojnih podatkov. Ko rečem velike podatke, to je vrsta velikih podatkov, o katerih govorim.

Zdaj je v perspektivi nekaj primerov uporabe - sodelujemo s prodajalcem na drobno, velikim prodajalcem. V Aziji so zelo znani. Tu se širijo v ZDA. Začeli boste videti trgovine; pogosto jih imenujejo azijska IKEA, tako preprosta zasnova. Imajo aplikacijo za zvestobo in spletno mesto. In pravzaprav so s pomočjo podatkov o zakladu to aplikacijo za zvestobo lahko zelo hitro uvedli. Naše stranke v roku nekaj dni ali tednov vstanejo in tečejo zaradi svoje programske opreme in naše storitvene arhitekture in zato, ker vsi ljudje delamo vse to trdo delo v zakulisju, da bi vam dali vse te zmogljivosti kot storitev.

Tako uporabljajo našo storitev za analitiko mobilnih aplikacij, ki gledajo na vedenje, na kaj ljudje kliknejo v svoji aplikaciji za zvestobo za mobilne naprave. Ogledajo si klike na spletnem mestu in to združijo z našimi e-trgovinami in podatki o POS-jih, da oblikujejo učinkovitejše promocije. V resnici so hoteli voziti ljudi v prodajalne, ker so ugotovili, da ljudje, ko gredo v trgovine, porabijo več denarja in to sem; da pobereš stvari, porabiš več denarja.

Še en primer uporabe, ki ga vidimo pri digitalnih video igrah, neverjetna okretnost. Želijo natančno videti, kaj se dogaja v njihovi igri, in spremeniti to igro, tudi v nekaj urah po njeni izdaji. Zato je za njih pogled v realnem času izjemno pomemben. Pravkar smo izdali igro, a smo že v prvi uri opazili, da vsi padajo na ravni 2; kako bomo to spremenili? To lahko spremenijo v istem dnevu. Torej je realni čas zelo pomemben. Dnevno nam predstavljajo milijarde dnevnikov dogodkov. Toda to je lahko kakršna koli mobilna aplikacija, pri kateri želite v realnem času pogledati, kako nekdo to uporablja.

In končno, veliko področje za nas je naše vedenje izdelkov in analitika senzorjev. Tako s podatki senzorjev, ki so v avtomobilih, v drugih vrstah strojev, pripomočkov, ki je drugo področje za nas, v nosljivih napravah. Imamo raziskovalne in razvojne ekipe, ki želijo hitro vedeti, kakšen je vpliv spremembe izdelka ali ljudi, ki jih zanima vedenje, kako ljudje komunicirajo z izdelkom. In imamo veliko več primerov uporabe, ki jih seveda z veseljem delimo z vami.

In nato končno, samo da vam pokažemo, kako se to lahko prilega v vaše okolje, ponovno ponujamo možnost zbiranja teh podatkov. Imamo zelo edinstveno tehnologijo zbiranja. Torej, če je zbiranje v realnem času nekaj, s čim se spopadate ali pričakujete, da se spopadate, poglejte službo za zaklad. Resnično smo naredili zmogljivosti za zbiranje pretočnih podatkov. Prav tako lahko svoje podatke nalagate na veliko, jih shranite, analizirate z našimi vgrajenimi poizvedbenimi mehanizmi in jih, kot sem že omenil, lahko izvozite v vaše podatkovno skladišče. Mislim, da je Will omenil potrebo po uvedbi velikih podatkov v vaše obstoječe procese. Torej ne pojdite okoli ali ne ustvarite novega silosa, ampak kako naredite te podatke manjše in jih nato premaknete v svoje podatkovno skladišče in se lahko povežete s svojim BI, vizualizacijskim in naprednim orodjem za analitiko.

Mogoče pa bi vas najpomembneje opustili, da nas upravlja storitev, to je programska oprema kot storitev; je zelo stroškovno učinkovit. Storitev mesečne naročnine, ki se začne od nekaj tisoč dolarjev na mesec, in sprostili vas bomo v nekaj dneh ali tednih. Primerjajte to s stroški mesecev in mesecev izgradnje lastne infrastrukture in najema teh ljudi ter iskanja in porabe vsega tega časa za infrastrukturo. Če včeraj eksperimentirate ali potrebujete kaj, lahko hitro začnete in tečete s podatki o zakladih.

In samo na vašo spletno stran in na našo začetno storitev. Če ste praktična oseba, ki se rad igra, si oglejte našo storitev za zagon. Lahko se vključite, ni potrebna nobena kreditna kartica, samo ime in, lahko pa se poigrate z našimi vzorčnimi podatki, naložite svoje podatke in resnično dojamete, o čem govorimo. Pa hvala lepa. Preverite tudi našo spletno stran. Letos smo bili v velikih podatkih imenovani Cool Gndner prodajalec, zelo ponosni na to. Prav tako lahko na naši spletni strani brezplačno dobite kopijo poročila in številne druge analitične bele knjige. Pa hvala lepa.

Eric: V redu, najlepša hvala. Tu imamo nekaj časa za vprašanja, ljudje. Predolgo bomo šli tudi zato, ker imamo tukaj še vedno veliko ljudi. In vem, da imam tudi sama nekaj vprašanj, zato naj grem naprej in ponovno prevzamem nadzor, nato pa bom zastavila nekaj vprašanj. Robin in Kirk, potopite se, kot se vam zdi primerno.

Torej, naj grem naprej in skočim desno na enega izmed teh prvih diapozitivov, ki sem ga preveril iz Pentaha. Torej, tukaj imam rad to razvijajočo se arhitekturo velikih podatkov, ali se lahko kaj pogovarjate o tem, kako to, da se to združuje v podjetju? Ker očitno vstopate v kakšno precej veliko organizacijo, celo srednje veliko podjetje, in imeli boste nekaj ljudi, ki že imajo nekaj tega; kako vse to sestavite skupaj? Kako izgleda aplikacija, ki vam pomaga, da vse te stvari zlepite skupaj in kaj potem izgleda vmesnik?

Bo: Veliko vprašanje. Vmesniki so različni, odvisno od vpletenih oseb. Toda kot primer želimo povedati zgodbo o - eden od panelistov je omenil primer uporabe rafinerije podatkov - to pri kupcih vidimo veliko.

Eden od naših primerov za stranke, o katerem govorimo, je Paytronix, kjer imajo to tradicionalno okolje za podatke EDW. Predstavljajo tudi Hadoop, zlasti Cloudera in z njim različne uporabniške izkušnje. Torej, najprej je inženirska izkušnja, kako vse te stvari povežete skupaj? Kako ustvarite lepilo med okoljem Hadoop in EDW?

In potem imate na razpolago poslovno uporabniško izkušnjo, o kateri smo govorili, številna BI orodja, kajne? Pentaho ima bolj vdelano orodje OEM BI, vendar obstaja veliko odličnih, kot sta Tableau in Excel, na primer, kjer ljudje želijo raziskati podatke. Običajno pa želimo zagotoviti, da se podatki urejajo, kajne? Eno od vprašanj v razpravah, kaj pa izkušnja z eno različico, kako to obvladate in brez tehnologije, kot je integracija podatkov Pentaho, da podatke združite ne na steklu, temveč v IT-okoljih. Tako resnično ščiti in upravlja podatke in omogoča enotno izkušnjo poslovnemu analitiku in poslovnim uporabnikom.

Eric: V redu, dobro. To je dober odgovor na težko vprašanje, odkrito povedano. Dovolite mi, da postavim vprašanje vsakemu od prisotnih in potem morda tudi Robinu in Kirku, če želite, da tudi vi skočite. Zato bi rad nadaljeval in predstavil ta diapozitiv za spletno delovanje, za katerega mislim, da je resnično zelo zanimivo podjetje. Pravzaprav poznam Sami Akbayja, ki je tudi eden od soustanoviteljev. Spomnim se, da sem pred leti govoril z njim in rekel: "Hej, kaj počneš? Kaj nameravaš? Vem, da moraš nekaj delati." In seveda je bil. Delal je na spletni strani, pod ovitki.

Za vas se je pojavilo vprašanje, Steve, zato vam ga bom vrnil v zvezi s čiščenjem podatkov, kajne? Lahko govorite o teh komponentah te zmožnosti v realnem času? Kako se spopadate z vprašanji, kot so čiščenje ali kakovost podatkov ali kako to sploh deluje?

Steve: Torej je res odvisno od tega, od kod boste hranili svoje vire. Ponavadi, če svoje vire pridobivate iz baze podatkov, ko spreminjate zajem podatkov, je spet odvisno od tega, kako so bili podatki vneseni. Čiščenje podatkov resnično postane težava, ko podatke dobivate iz več virov ali jih ljudje vnašajo ročno ali imate poljubne podatke, iz katerih morate poskusiti in potegniti stvari. In to bi zagotovo lahko bilo del postopka, čeprav se ta vrsta preprosto ne spušča v resnično, nekakšno, hitrohitrostno obdelavo v realnem času. Čiščenje podatkov je navadno drag postopek.

Torej je mogoče, da bi to lahko storili po dejstvi na spletnem mestu trgovine. Toda druga stvar, v kateri je platforma resnično zelo dobra, je korelacija, torej v korelaciji in obogatitvi podatkov. V realnem času lahko povežete dohodne podatke in preverite, ali se ujemajo z določenim vzorcem ali se ujemajo s podatki, ki so bili pridobljeni iz baze podatkov ali Hadoopa ali neke druge trgovine. To lahko povežete z zgodovinskimi podatki, kar bi lahko storili.

Druga stvar, ki jo lahko naredite, je v bistvu analiza teh podatkov in preverjanje, ali se nekako ujema z določenimi vzorci. In to je nekaj, kar lahko storite tudi v realnem času. Toda tradicionalna vrsta čiščenja podatkov, pri kateri popravljate imena podjetij ali popravljate naslove in vse te vrste stvari, bi jih bilo verjetno treba izvesti v izvoru ali vrsti po resnici, kar je zelo drago in molite da tega ne bodo storili v realnem času.

Eric: Ja. In resnično poskušate reševati seveda stvari v realnem času, vendar tudi pravočasno pridobite ljudi. In govorili smo o tem, kajne, na koncu ure sem omenil, to celotno priložnost in resnično ciljate na posebne aplikacije v podjetjih, kjer lahko zberete podatke, ki ne gredo po običajni poti, po tej nadomestni poti in to storite s tako nizko zamudo, da lahko obdržite stranke. Na primer, lahko ohranite ljudi zadovoljne in zanimivo je, ko sem se s Samijem dolgo pogovarjal o tem, kaj počnete, je resnično povedal. Če si ogledate veliko novih spletnih programov, je dejal, oglejmo si stvari, kot so, Bitly ali nekatere druge aplikacije; se zelo razlikujejo od starih aplikacij, ki smo jih gledali iz, recimo, Microsofta, kot je Microsoft Word.

Microsoft pogosto uporabljam kot nekakšnega fantka in konkretno Word, da bi govoril o razvoju programske opreme. Ker se je Microsoft Word začel kot program za obdelavo besedil. Sem eden tistih ljudi, ki se spominjajo Word Perfect. Všeč mi je bilo, da sem lahko opravljal tipke za razkritje ali kodo za razkritje, v bistvu pa lahko tam vidite dejansko kodo. Nekaj bi lahko očistili, če je bil na seznamu z napačnim lističem napačen, lahko ga očistite. No, Word te ne dovoli. Lahko vam povem, da Word vdela goro kode v vsako stran, ki jo delate. Če mi kdo ne verjame, pojdite na Microsoft Word, vtipkajte "Hello World" in nato "Export as" ali "Save as" .html. Nato odprite dokument v urejevalniku in kode bodo imele približno štiri strani, samo za dve besedi.

Torej, fantje, mislil sem, da je zelo zanimivo in da je čas, da se pogovorimo o tem. Zato se vi osredotočite na to, kajne, je določitev, čemur lahko rečete možnosti za platformo ali med podjetji ali med domenami, da v tako hitrem času združijo podatke, da lahko igro spremenite, kajne?

Steve: Ja, absolutno. In eden od ključev, ki se mi zdi, da ste se tako ali tako izmikali, ali resnično želite vedeti o stvareh, ki se dogajajo, preden to storijo vaše stranke ali preden resnično, postanejo resnično težave. Kot primer so set-top boxi. Kabelske škatle, ves čas oddajajo telemetrijo, obremenitve in obremenitve telemetrije. In ne samo zdravje zdravja, ampak tudi to, kar gledate, in vse take stvari, kajne? Tipičen vzorec je, da počakate, da se okence odpove, nato pa pokličete svojega ponudnika kablov in ti rečejo: "No, k vam bomo prišli nekje med 6. in 23. uro v mesecu novembru." To ni res dobra izkušnja s strankami.

Toda če bi lahko analizirali to telemetrijo v realnem času, bi lahko začeli delati takšne stvari, vemo, da bodo te škatle v naslednjem tednu verjetno spodletele na podlagi zgodovinskih vzorcev. Zato bomo načrtovali našega strokovnjaka za popravilo kablov, da se bo pojavil v hiši te osebe, preden ta ne uspe. In to bomo storili na način, ki nam bolj ustreza, kot pa da ga bomo imeli od Santa Cruza do Sunnyvaleja. Vse bomo načrtovali v lepem vrstnem redu, vzorcu prodajalcev potovanj itd., Da bomo lahko optimizirali svoje poslovanje. Stranka je zato vesela, ker nima okvarjene kabelske omarice. In ponudnik kablov je vesel, ker so stvari samo poenostavili in jih ljudem ni treba povsod. To je zelo hiter primer.Obstajajo pa številni primeri, ko poznavanje stvari, ki se dogajajo, preden se zgodijo, lahko podjetjem prihrani bogastvo in resnično izboljšajo odnose s strankami.

Eric: Ja, prav. Brez dvoma. Pojdimo naprej in gremo desno na MarkLogic. Kot sem že omenil, o teh fantih vem že kar nekaj časa, zato vas bom vpeljal v to, Frank. Fantje ste bili daleč pred vsem velikim gibanjem podatkov v smislu izdelave svoje aplikacije, to je resnično baza podatkov. Toda gradite ga in govorili ste o pomenu iskanja.

Tako veliko ljudi, ki so sledili vesolju, ve, da veliko orodij NoSQL tam zunaj išče možnosti za iskanje, bodisi prek tretjih oseb ali pa poskušajo narediti svoje. Toda to, da je iskanje že vgrajeno v to, tako rekoč, resnično je velika stvar. Kajti če razmišljate o tem, če nimate SQL-a, potem, kako vstopate in iščete podatke? Kako se potegnete iz tega vira podatkov? In odgovor je, da običajno uporabite iskanje, da pridete do podatkov, ki jih iščete, kajne?

Zato menim, da je to eden ključnih razločevalcev za vas, da lahko črpate podatke iz vseh teh različnih virov in jih shranjujete in resnično olajšate tovrstno hibridno okolje. Mislim, da je za vas veliko iskanje, kajne?

Frank: Ja, absolutno. V resnici je to edini način, da težavo dosledno rešite, ko ne veste, kako bodo videti vsi podatki, kajne? Če si ne morete predstavljati vseh možnosti, potem je edini način, da zagotovite, da lahko najdete vse želene informacije, da jih lahko najdete dosledno in jih lahko najdete, ne glede na to, kako razvijate svoj podatkovni model in svoje podatkovne naloge. da ljudem zagotovite splošna orodja, ki jim omogočajo zasliševanje teh podatkov. In najlažji, najbolj intuitiven način je to skozi iskalno paradigmo, kajne? In po istem pristopu pri iskanju smo ustvarili obrnjen indeks. Imate vnose, v katere lahko dejansko pogledate te podatke in nato najdete zapise in dokumente in vrstice, ki dejansko vsebujejo podatke, ki jih iščete, nato pa jih vrnete stranki in jim omogočite, da jih obdelujejo tako, kot jim ustrezajo.

Eric: Ja, in o tem smo se veliko pogovarjali, vendar mi dajete res dobro priložnost, da se v to vkopam - celotno iskalno in odkritje te enačbe. Najprej je zelo zabavno. Za vse, ki imajo radi te stvari, je to zabavni del, kajne? Toda druga stran enačbe ali druga stran kovanca, moram reči, je, da gre res za iterativni postopek. In tu moraš biti sposoben - tu bom uporabil nekaj tržnega jezika -, da pogovor s podatki, ali ne? Z drugimi besedami, hipotezo morate preizkusiti, se igrati z njo in videti, kako to deluje. Mogoče tega ni, preizkusite kaj drugega in nenehno spreminjajte stvari, ponavljajte in iščete ter raziskujte in samo razmišljajte o stvareh. In to je postopek. Če imate velike ovire, kar pomeni dolge zamude ali težaven uporabniški vmesnik ali morate vprašati IT; ki samo ubije celotno analitično izkušnjo, kajne?

Zato je pomembno imeti tovrstno prilagodljivost in možnost iskanja. Všeč mi je način, kako si ga tukaj upodobil, ker če bomo iskali različne, pojme ali ključe, če hočete, ključne vrednosti in so različne dimenzije. Želite biti sposobni mešati in primerjati te stvari, da bi svojemu analitiku omogočili iskanje koristnih stvari, kajne?

Frank: Ja, absolutno. Mislim, tudi hierarhija je pomembna stvar, kajne? Tako da, ko vključite nekaj, kot je naslov, pravica ali določen izraz ali vrednost, lahko dejansko pokažete na pravilno. Če torej iščete naslov članka, ne dobivate naslovov knjig, kajne? Ali pa ne dobivate naslovov objav v blogih. Pomembna je tudi sposobnost razlikovanja med temi in po hierarhiji informacij.

Že prej ste opozorili na razvoj, kajne? Sposobnost naših strank, da v nekaj urah dejansko začnejo uporabljati nove vire podatkov, začnejo delati z njimi, presoditi, ali so koristni ali ne, in jih nato še naprej vključevati ali pustiti ob strani, je izjemno dragocena. Ko ga primerjate s tradicionalnejšim pristopom k razvoju aplikacij, pri katerem morate na koncu ugotoviti, katere podatke želite zaužiti, izvirati podatke in ugotoviti, kako jih boste vgradili v svoj obstoječi podatkovni model oz. model, da spremenite ta podatkovni model, da ga vključite in nato dejansko začnete z razvojem, kajne? Kjer to nekako obrnemo na glavo in rečemo, da nam ga preprosto prinesemo, vam omogočimo, da začnete z njim delati in se pozneje odločite, ali ga želite ohraniti ali skoraj takoj, ali je vreden ali ne.

Eric: Ja, res je dobro. To je dobro. Naj grem naprej in prinesem našega četrtega predstavitelja, zaklad podatkov. Obožujem te fante. Nisem vedel veliko o njih, zato sem se nekako brcal. In potem je Hannah prišla k nam in nam povedala, kaj počnejo. Hannah je omenila, da je medijska oseba in je prešla na temno stran.

Hannah: Jaz sem, pokvaril sem se.

Eric: Vendar je to v redu, saj veste, kaj nam je v medijskem svetu všeč. Vedno je lepo, ko medijska oseba preide na stran prodajalca, ker razumete, hej, te stvari ni tako enostavno artikulirati in na spletnem mestu je težko ugotoviti, kaj ta izdelek počne v primerjavi s tem izdelkom. In to, o čemer govorite, je res zanimivo. Zdaj ste storitev v oblaku. Torej, kateri koli podatki, ki jih nekdo želi uporabiti, jih naložijo v vaš oblak, je tako? In potem boste dodali dodatne podatke do oblaka ETL ali CDC, ali to deluje?

Hannah: No ja. Torej, naj poudarim pomembno razliko. Večina podatkov, veliki podatki, ki nam jih ponujajo naše stranke, je že zunaj požarnega zidu - mobilni podatki, senzorski podatki, ki so v izdelkih. In zato ga pogosto uporabljamo kot vmesno območje uprizarjanja. Tako podatki pogosto ne prihajajo iz podjetja, ki je v naši storitvi, saj se v spletno okolje v oblaku pretakajo s spletnega mesta, mobilne aplikacije, izdelka z veliko senzorji.

Zdaj, če želite obogatiti te velike podatke v našem okolju, lahko zagotovo naloži več podatkov o aplikacijah ali nekaj podatkov o strankah, da to obogatite, in več analitike opravite neposredno v oblaku. Toda veliko naše vrednosti je v tem, da zbiramo podatke, ki so že zunaj požarnega zidu, in jih združimo na eno mesto. Tudi če to nameravate postaviti za svoj požarni zid in narediti več napredne analitike ali ga vnesti v obstoječe BI ali analitično okolje, je to resnično dobro prizorišče. Ker ne želite vnesti milijardo vrstic na dan v svoje podatkovno skladišče, to ni stroškovno učinkovito. Celo težko je, če ga nameravate nekje shraniti in nato paketno naložiti.

Tako smo pogosto prva točka, kjer se zbirajo podatki, ki so že zunaj požarnega zidu.

Eric: Ja, tudi to je zelo dobro. Ker bo veliko podjetij nervozno, ker bodo vzeli svoje lastniške podatke o strankah, jih dali v oblak in obvladali celoten postopek.

Hannah: Ja.

Eric: In to, o čemer govorite, ljudem resnično ponuja vir za krčenje tistih težkih številk, kot predlagate, podatkov, ki so tretje osebe, kot so mobilni podatki in socialni podatki ter vse te druge zabave. To je precej zanimivo.

Hannah: Ja, absolutno. In verjetno so živčni zaradi izdelkov, ker so podatki že zunaj. In tako da, preden sem ga vnesel, in res mi je všeč ta izraz rafinerije, kot sem že omenil, proti jezeru. Lahko torej naredite nekaj osnovnih rafinerije? Pridobite dobre stvari in jih nato prinesite za požarnim zidom v svoje druge sisteme in procese za poglobljeno analizo. Torej je resnično vse, kar lahko znanstveniki počnejo, v realnem času raziskovanje novih velikih podatkov, ki se pretakajo v realnem času.

Eric: Ja, tako je. No, naj grem naprej in privedem svoje analitike in nekako se bomo vrnili v obratnem vrstnem redu. Začel bom z vami, Robin, glede podatkov o zakladih, nato pa bomo šli v Kirk še za nekatere druge. In potem nazaj k Robinu in nazaj k Kirku, da bi še malo preučil to.

In veš, rafinerija podatkov, Robin, o kateri Hannah govori tukaj. Všeč mi je ta koncept. Slišal sem le nekaj ljudi, da o tem govorijo, vendar mislim, da ste to zagotovo že omenili. In res govori o tem, kaj se dejansko dogaja z vašimi podatki. Ker je seveda rafinerija, v bistvu destilira stvari do svoje koreninske ravni, če pomislite na rafinerije nafte. To sem dejansko preučeval nekaj časa in je precej osnovno, toda inženiring, ki se ukvarja z njim, mora biti popolnoma pravilen ali pa ne boste dobili stvari, ki bi jih želeli. Zato mislim, da je to odlična analogija. Kaj menite o tem celotnem konceptu storitve zaklad podatkov v oblaku, ki vam pomaga, da se spopadete z nekaterimi zelo specifičnimi analitičnimi potrebami, ne da bi morali stvari prinesti sami?

Robin: No, mislim, očitno odvisno od okoliščin, koliko je to prikladno. Toda vsak, ki je dejansko že narejen, vas bo že spravil pred igro, če je še niste storili. To je prvi ukrep za kaj takega. Če je nekdo nekaj sestavil, je to storil, je to dokazano na trgu, zato je v resnici neka vrednost, no, delo je že prešlo v to. In obstaja tudi zelo splošno dejstvo, da bo rafiniranje podatkov veliko večje vprašanje kot doslej. Mislim, o njem se ne govori, po mojem mnenju se ne govori toliko, kot bi moralo biti. Preprosto, razen dejstva, da je velikost podatkov narasla, število virov in raznolikost teh virov pa je precej narasla. In zanesljivost podatkov glede na to, ali so čisti, jih je treba razstaviti, vse vrste vprašanj, ki se pojavljajo samo v zvezi z upravljanjem podatkov.

Torej, preden se boste dejansko lotili tega, da boste lahko naredili zanesljivo analizo, veste, če so vaši podatki umazani, potem bodo vaši rezultati na tak ali drugačen način pokošeni. Torej je treba to obravnavati, kar je treba vedeti. In trigulator zagotavljanja, kolikor vidim, zelo sposobne storitve za pomoč pri tem.

Eric: Ja, res. No, naj grem naprej in hitro vrnem Kirka v enačbo. Želel sem si pogledati še enega od teh diapozitivov in nekako pridobiti svoj vtis o stvari, Kirk. Mogoče se torej vrnemo na ta diapozitiv MarkLogic. Mimogrede, Kirk je dal povezavo, če tega niste videli, do nekaterih diapozitivov njegovega odkritja v razredu, ker je to zelo zanimiv koncept. Mislim, da je to nekako pivo v zadnjem trenutku, Kirk, kot sem govoril o tem pred časom. Celotno vprašanje, ki si ga je zastavil eden od udeležencev o tem, kako greš iskati nove razrede. Všeč mi je ta tematika, ker resnično govori na takšne, težke strani kategoriziranja stvari, ker sem vedno težko kategoriziral stvari. Všeč mi je: "O, bog, umestim se v pet kategorij, kam naj ga postavim?" Zato nočem ničesar kategorizirati, kajne?

In zato obožujem iskanje, ker vam ga ni treba kategorizirati, vam ga ni treba dati v mapo. Samo ga poiščite in ga boste našli, če boste znali iskati. Če pa ste v procesu poskušanja segmentov, ker je to v bistvu kategorizacija, je segmentiranje; iskanje novih razredov, kar je zanimiva stvar. Ali lahko na primer govorite o moči iskanja, semantiki in hierarhijah, kot je na primer govoril Frank v zvezi z MarkLogicem in vlogo, ki igra pri iskanju novih razredov, kaj menite o tem?

Kirk: Najprej bi rekel, da berete moje misli. Ker sem o tem razmišljal še preden ste govorili, je bil tukaj celoten pomenski del, ki ga je predstavil MarkLogic. Če se vrnete na moj diapozitiv, vam tega ni treba storiti, ampak nazaj na diapozitiv pet, kar sem predstavil danes popoldne; Govoril sem o tej semantiki, da je treba podatke zajeti.

Torej, celotna ideja o iskanju. Trdno verjamem v to in vedno sem verjel v to z velikimi podatki, nekako vzemite analogijo interneta, mislim, samo splet, mislim imeti svetovno znanje in informacije in podatke v spletnem brskalniku je ena stvar. Toda če želimo, da ga ena od velikih podjetij iskalnikov zagotavlja učinkovito in učinkovito iskanje, je tu prava moč odkrivanja. Ker povezujete iskalne izraze, razvrstite območja zanimanja za uporabnika s posamezno podatkovno granulo, določeno spletno stran, če želite razmisliti o spletnem primeru ali določenem dokumentu, če govorite o knjižnici dokumentov. Ali določeno vrsto kupca segmenta, če je to vaš prostor.

Semantika vam daje takšno znanje, ki temelji na iskanju besed. Če iščete določeno vrsto stvari, če razumete, da ima lahko član razreda takšne stvari določen odnos do drugih stvari. Vključite celo take podatke o odnosih in podatke o hierarhiji razreda, da bi našli stvari, ki so podobne tistemu, ki ga iščete. Ali včasih celo ravno nasprotno od tistega, kar iščete, ker to na nek način daje dodatno jedro razumevanja. No, verjetno nekaj, kar je nasprotno od tega.

Eric: Ja.

Kirk: Torej to dejansko razumem. Vidim nekaj, kar je nasprotno od tega. In tako je pomenska plast dragocena komponenta, ki jo pogosto pogrešamo, in zanimivo je, da bi se to pojavilo v tem smislu. Ker sem že desetletje predaval podiplomski tečaj iz podatkovnih baz, rudarjenje podatkov, učenje podatkov, znanost o podatkih; in ena od mojih enot v tem semestrskem predmetu je semantika in ontologija. In pogosto bi me moji učenci gledali kot, kaj ima to veze s tem, o čemer govorimo? In na koncu, mislim, da razumemo, da je treba te podatke umestiti v nekakšen okvir znanja. Tako, da na primer iščem informacije o določenem vedenju kupcev in razumem, da se takšno vedenje zgodi, to ljudje kupujejo na športnih prireditvah. Kakšne izdelke ponujam svojim strankam, ko na njihovih družbenih medijih - ali na - opazim, da pravijo, da bodo šli na športne dogodke, kot so nogomet, baseball, hokej, svetovno prvenstvo, ne glede na to.

V redu, tako športni dogodek. Torej pravijo, da bodo igrali, recimo, baseball igra. Ok, razumem, da je baseball športni dogodek. Razumem, da je to ponavadi družabno in greš z ljudmi. Razumem, da je običajno v prostem prostoru. Mislim, če razumete vse te končne lastnosti, omogoča nekakšno, zmogljivejšo, segmentacijo vpletene stranke in vašo personalizacijo izkušenj, ki jim jih ponujate, ko na primer komunicirajo z vašo prostor prek mobilne aplikacije, ko sedijo na stadionu.

Torej vse tovrstne stvari prinašajo toliko več moči in možnosti odkritja podatkov v tej vrsti indeksirne ideje indeksiranja zrnc podatkov po njihovem pomenu mesta in prostora znanja je resnično zelo pomembno. In res sem bil navdušen nad tem, da sem danes izšel. Mislim, da je to nekaj temeljnega, o čemer moramo govoriti.

Eric: Ja, res je. V procesu odkritja je zelo pomembno, zelo pomembno je v postopku razvrščanja. In če razmislite, Java deluje v razredih. Objektno je usmerjen, verjetno, bolj ali manj, lahko bi rekli oblika programiranja in Java deluje v razredih. Če torej dejansko oblikujete programsko opremo, je celoten koncept iskanja novih razredov pravzaprav zelo pomembne stvari glede funkcionalnosti, ki jo poskušate zagotoviti. Ker še posebej v tem novem divjem, čudovitem svetu velikih podatkov, kjer imate toliko Jave, ki poganja toliko različnih aplikacij, veste, da obstaja 87.000 načinov ali več, s katerimi lahko naredite karkoli z računalnikom, da pridobite kakršno koli bit opravljene funkcionalnosti.

Ena izmed mojih teka se šali, ko ljudje rečejo: "Oh, lahko zgradite podatkovno skladišče s pomočjo NoSQL." Všeč mi je: "no, lahko bi, da, to je res. Prav tako lahko zgradite podatkovno skladišče z uporabo programa Microsoft Word." To ni najboljša ideja, ne bo šlo zelo dobro, ampak lahko to dejansko storite. Ključno je torej, da morate najti najboljši način za nekaj.

Kar daj.

Kirk: Naj samo odgovorim na to. Zanimivo je, da ste omenili primer razreda Java, ki mi ni padel na pamet, dokler ga niste povedali. Eden od vidikov Jave in razredov ter takšna usmeritev predmeta je, da obstajajo metode, ki se vežejo na določene razrede. In to je res vrsta, ki sem jo poskušal predstaviti in ko enkrat razumete nekaj teh zrnc podatkov - te nuggets znanja, te oznake, te opombe in te semantične nalepke -, potem lahko na to način vežete. V bistvu imajo takšno reakcijo ali takšen odziv in vaš sistem zagotovi tovrstno avtomatizirano, proaktivno odzivanje na to stvar, ko bomo naslednjič videli tok podatkov.

Tako da je koncept zavezujočih dejanj in metod za določen razred res ena od pristojnosti avtomatizirane analitike v realnem času. In mislim, da se nekako udariš po nečem.

Eric: Dobro, dobro, dobro. No, to so dobre stvari. Torej, poglejmo, Will, želim, da vam ga izročim in dejansko občinstvu postavim vprašanje. Tudi tukaj je nekaj takih. In ljudje, že dolgo bomo šli, ker želimo v teh dobrih vprašanjih dobiti nekaj teh dobrih konceptov.

Dovolite mi, da vam postavim vprašanje iz ene od številnih občinstva, ki pravijo: "Ne vidim prav, kako poslovna inteligenca razlikuje vzrok in učinek." Z drugimi besedami, kako sistemi sprejemajo odločitve na podlagi opaznih informacij, kako razvijajo nove modele, da bi izvedeli več o svetu? To je zanimiva točka, zato slišim vzročno-posledično povezavo, analizo vzrokov in vzrokov, in to je nekaj takšnih stvari višjega razreda v analitiki, o katerih govorite, v nasprotju s tradicionalnim BI, ki je v resnici samo nekakšno poročanje in neke vrste razumevanje dogajanja. In vaša celotna smer, samo če pogledamo vaš diapozitiv, se premika k tej napovedni sposobnosti za sprejemanje teh odločitev ali vsaj za sprejemanje teh priporočil, kajne? Ideja je, da poskušate postreči s celoto tega, kar se dogaja, in razumete, da je ključ, prava čarovnija, v komponenti analitičnega cilja tam na desni.

Will: Vsekakor.Mislim, da to vprašanje nekoliko potuje v prihodnost, v smislu, da smo v znanosti o podatkih, kot sem že omenil, videli diapozitiv z zahtevami podatkovnega znanstvenika; za nekoga je to zelo zahtevna vloga. Imeti morajo tako bogato znanje statistike in znanosti. Če želite uporabiti svoje matematično znanje na področjih, morate imeti znanje o domeni. Torej, kar danes vidimo, ali ni teh nenavadnih napovednih orodij, ki bi jih poslovni uporabnik, kot je na primer, lahko v Excelu samodejno napovedal in samodejno napovedoval svojo prihodnost, kajne?

V tej fazi je potrebno to napredno znanje o tehnologiji. Zdaj se bo nekoč v prihodnosti morda zgodilo, da bodo nekateri od teh sistemov, ti raztezni sistemi postali čuteči in začeli delati nekaj divjih stvari. Toda na tej stopnji bi rekel, da morate še naprej imeti podatkovnega strokovnjaka, da lahko nadaljujete z izdelavo modelov, ne pa teh modelov. Te napovedne modele v zvezi s pridobivanjem podatkov in takimi zelo uglašuje in gradi podatkovni znanstvenik. Če ne veste, kaj si mislim, niso ustvarjene sami.

Eric: Ja, točno tako. To je prav. In ena od mojih vrstic je "Stroji ne lažejo, vsaj še ne."

Will: Še ne, točno.

Eric: Sem prebral članek - nekaj o tem moram napisati - o nekem poskusu, ki so ga naredili na univerzi, kjer so rekli, da so se ti računalniški programi naučili lagati, ampak moram vam povedati, da v resnici ne verjamem . Naredili bomo nekaj raziskav o tem, ljudje.

In za zadnji komentar, zato vas bom Robin pripeljal nazaj, da si ogledam to platformo WebAction, ker je to zelo zanimivo. To, kar imam rad v celotnem prostoru, je, da dobiš tako različne perspektive in različne kote, ki jih različni prodajalci sprejmejo, da služijo zelo specifičnim potrebam. In ta format mi je všeč za našo oddajo, saj imamo štiri resnično zanimive prodajalce, ki, odkrito povedano, sploh ne stopijo drug na drugega. Ker vsi delamo različne bite in koščke iste splošne potrebe, to je, da uporabimo analitiko, da bi zaključili stvari.

Ampak samo želim dojeti vaš pogled na to specifično platformo in njihovo arhitekturo. Kako potekajo stvari Zdi se mi precej prepričljiv. Kaj misliš?

Robin: Mislim, kaže, da so izredno hitri rezultati pretakanja podatkov in ko iščete, morate arhitekta za to. Hočem reči, da se ničesar ne boš lotil amaterski, kot imamo karkoli od tega. Slišim, da je to izjemno zanimivo in mislim, da je ena od stvari, ki smo jim bili priča v preteklosti; Mislim, da mislim, da si ti in jaz naša čeljust v zadnjih nekaj letih čedalje bolj upada, ko smo videli, da se pojavlja vse več stvari, ki so bile ravno tako izjemno hitre, izredno pametne in precej brez primere.

To je očitno, WebAction, to ni prvo rodeo, tako rekoč. Pravzaprav je v določeni meri tam privzela imena. Torej ne vidim, toda domnevali bi nas, da bi morali biti presenečeni, da je arhitektura dokaj spremenjena, vendar zagotovo je.

Eric: No, povem ti kaj, ljudje. Tu smo gorili skozi solidnih 82 minut. Mislim, hvala vsem, ki ste jih poslušali ves čas. Če imate kakršna koli vprašanja, na katera niste odgovorili, ne bodite sramežljivi, resnično do svojega. Morali bi imeti nekoga, ki leži nekje naokoli. In velika hvala obema danes predstavnima, dr. Kirku Bornu in dr. Robinu Bloorju.

Kirk, rad bi z vami še raziskal nekaj semantičnih stvari, morda v prihodnji spletni oddaji. Ker mislim, da smo zdaj na začetku zelo nove in zanimive faze. Kaj bomo lahko uporabili veliko idej, ki jih imajo ljudje, in jih uresničimo veliko lažje, kajti, uganil, kaj, programska oprema je vse manj draga. Vse bolj je uporabna in vse te podatke pravkar pridobivamo iz vseh teh različnih virov. In mislim, da bo v naslednjih nekaj letih zelo zanimivo in fascinantno potovanje, saj bomo resnično iskali, kaj lahko počnejo te stvari in kako lahko izboljšajo svoje poslovanje.

Tako velika hvala tudi Techopedia in seveda našim sponzorjem - Pentaho, WebAction, MarkLogic in Treasure Data. In ljudje, vau, s tem bomo zaključili, vendar najlepša hvala za vaš čas in pozornost. Za naslednjo oddajo vas bomo ujeli približno mesec in pol. In seveda, sejnin še naprej poteka; radio nadaljuje; vse naše druge spletne oddaje nadaljevali z zibanjem in rolanjem, ljudje. Najlepša hvala. Naslednjič vas bomo ujeli. Adijo.