Moč predloga: kako katalog podatkov omogoča analitikom

Video.: Deloitte STEM Connect Experience Program Answers | Deloitte Virtual Internship | FREE Certificate

Odvzem: Voditeljica Rebecca Jozwiak govori o prednostih katalogov s podatki z Dez Blanchfield, Robin Bloor in Davidom Crawfordom.

Za ogled videoposnetka se morate registrirati za ta dogodek. Za ogled videoposnetka se registrirajte.

Rebecca Jozwiak: Gospe in gospodje, pozdravljeni in dobrodošli v podjetju Hot Technologies 2016. Danes smo dobili "Moč sugestije: kako katalog podatkov omogoča analitikom." Jaz sem vaša gostiteljica Rebecca Jozwiak, ki danes izpolnjujem našega običajnega gostitelja Erica Kavanagh, medtem ko je on potuje po svetu, zato hvala, da ste se nam pridružili. Letos je vroče, v Teksasu ni samo vroče, kjer sem, ampak povsod je vroče. Prihaja do eksplozije vseh vrst novih tehnologij. Imamo IoT, pretakanje podatkov, sprejetje v oblaku, Hadoop še naprej dozoreva in je sprejet. Imamo avtomatizacijo, strojno učenje in vse te stvari seveda podčrtajo podatki. In podjetja postajajo vse več podatkov, ki jih poganja dan. In seveda, poanta tega je, da pripeljete do znanja in odkrivanja in, veste, boljše odločitve. Da pa iz podatkov resnično pridobite največjo vrednost, je do tega enostavno priti. Če ga boste imeli zaprtega ali zakopanega ali v možganih nekaj ljudi v podjetju, to podjetju kot celoti ne bo prineslo veliko koristi.

In nekako sem razmišljal o katalogizaciji podatkov in o razmišljanju o knjižnicah, kamor ste že zdavnaj odšli, če bi morali kaj poiskati, če bi morali raziskati temo ali poiskati nekaj informacij, ste šli v knjižnico , in seveda ste šli v katalog kartic, ali obrtniška gospa, ki je delala tam. Bilo pa je tudi zabavno, da se nekako sprehajamo naokoli, če bi le radi pogledali in prepričani, da boste morda odkrili kaj čednega, boste morda izvedeli nekaj zanimivih dejstev, ki jih niste vedeli, če pa bi res morali kaj najti, in vedeli ste, kaj iščete, potrebovali ste katalog kartic, podjetniški ekvivalent pa je seveda katalog podatkov, s pomočjo katerega lahko naši uporabniki osvetlijo vse podatke, da lahko obogatijo, odkrijejo, delijo, porabijo in resnično pomagajo ljudem pridobiti hitreje in lažje podatke.

Tako smo danes dobili Deza Blanchfielda, našega znanstvenika za podatke, in imamo zdravnika Robina Bloorja, našega glavnega analitika, dobili smo Davida Crawforda iz podjetja Alation, ki bo govoril o zgodbi katalogiziranja podatkov svojega podjetja, ampak najprej gremo da vodi z Dez. Dez, žogico ti prenašam in tla so tvoja.

Dez Blanchfield: Hvala, hvala, ker si me danes. To vprašanje me zelo zanima, saj skoraj vsaka organizacija, na katero naletim v vsakodnevno delo, se mi zdi popolnoma enaka zadeva, o kateri smo zelo na kratko govorili v natečaju pred nastopom, in to je to večina organizacij, ki poslujejo že več kot nekaj let, ima obilico podatkov pokopanih okoli organizacije, različnih formatov, pravzaprav imam stranke, ki imajo nabore podatkov, ki se vračajo v Lotus Notes, baze podatkov, ki še vedno delujejo v nekaterih primeri kot njihovi psevdo interneti, in vsi se srečujejo s tem izzivom, da dejansko najdejo, kje so njihovi podatki, in kako do njih dostopati, kdo jim omogočiti dostop, kdaj zagotoviti dostop do njih in kako samo kataloga in kako ga priti do mesta, kjer lahko vsakdo: A) zavedajte se, kaj je tam in kaj je v njem, in B), kako do njega dostopati in ga uporabljati. In eden največjih izzivov je seveda iskanje tega, drugi velik izziv pa je vedeti, kaj je tam in kako do njega dostopati.

Mogoče vem, da imam na desetine baz podatkov, toda dejansko ne vem, kaj je tam ali kako ugotoviti, kaj je tam, in tako neizogibno, kot to odkrijemo zdaj v podatkih pred prikazovanjem, običajno hodite po pisarni in sprašujte, vikati po kubičnih stenah in preizkusiti, kaj se pogosto zdi, moja izkušnja je, da lahko celo zasledite, da se sprehajate pred recepcijo, na recepciji in sprašujete, če kdo ve, kdo ste se grem pogovorit. Velikokrat ne gre vedno za ljudi iz IT-ja, ker se ne zavedajo nabora podatkov, ker ga je nekdo pravkar ustvaril, in lahko je nekaj preprostega - pogosto bomo našli takšen projekt, ki stoji v IT okolju in vodja projektov je uporabil preglednico o vseh stvareh in pridobil je ogromno dragocenih informacij o sredstvih in prevarah in imenih, in če tega projekta ne poznate in ne poznate te osebe, te informacije preprosto ne najdete. Preprosto ni na voljo in morate dobiti to prvotno datoteko.

Obstaja besedna zveza, ki se v zvezi s podatki skriva, in se s tem ne strinjam nujno, ampak mislim, da je to malo luštno in to je, da nekateri ljudje mislijo, da so podatki novo olje, in prepričan sem, da To bom obravnaval tudi v nekem vidiku, kasneje tudi danes. Vendar sem opazil, da je gotovo del te preobrazbe, da so organizacije podjetij, ki so se naučile ceniti svoje podatke, pridobile pomembne prednosti pred svojimi konkurenti.

Pred približno petimi ali šestimi leti je IBM objavil zanimiv prispevek in raziskali približno 4000 podjetij tukaj v Avstraliji in vzeli vse podatke, vse podatke o uspešnosti, vse podatke o financah in jih skupaj sestavili v vrelo posodo in nato ga poslali na avstralsko ekonomsko šolo in tam so dejansko začeli skupni trend, in to je, da so podjetja, ki so s finančnimi sredstvi neizogibno pridobila takšno konkurenčno prednost pred svojimi vrstniki in konkurenti, kot da njihovi konkurenti skoraj nikoli ne dohitijo, in mislim, da to je zdaj zelo slučaj s podatki, da smo videli, kaj ljudje imenujejo digitalna transformacija, kjer organizacije, ki so jasno ugotovile, kako najti podatke, ki jih imajo, da jih dajo na voljo in jih dajo na voljo v zelo enostavno potrošnem modo na organizacijo, ne da bi vedno vedeli, zakaj jo organizacija morda potrebuje, in pridobili pomembno prednost pred konkurenti.

Na tem diapozitivu imam nekaj primerov, ki jih lahko vidite. Moje mnenje je, da po mojem mnenju obsežne motnje v skoraj vseh panožnih panogah poganjajo podatki, in če se sedanji trendi karkoli dogajajo, menim, da smo res šele dobili začeli, ker ko se dolgoletne znamke končno zbudijo, kaj to pomeni in vstopijo v igro, bodo v igro vstopile na debelo. Ko nekateri glavni trgovci na drobno, ki imajo gore podatkov, začnejo uporabljati zgodovinsko analizo podatkov, če sploh vedo, da obstajajo, se bodo nekateri igralci na spletu oglasili.

Toda pri mnogih od teh blagovnih znamk mislim, da imamo Uberja, ki je največja taksi družba na svetu. Nimajo nobenih taksijev, kaj je tisto, kar jih naredi čarobne, kaj so njihovi podatki? Airbnb, največji ponudnik nastanitve, imamo WeChat, največje telefonsko podjetje na svetu, vendar nimajo dejanske infrastrukture, brez mobilnih telefonov in telefonskih linij. Alibaba, največji prodajalec na svetu, nimajo pa nobenega od zalog. , največje besedno podjetje. Mislim, da so imeli na koncu že 1,4 milijarde aktivnih uporabnikov podatkov, kar je zelo močna številka. To ni nikjer v bližini - mislim, da je nekdo trdil, da je četrtina planeta pravzaprav vsak dan tam, in vendar je tu ponudnik vsebin, ki vsebine dejansko ne ustvari, vseh podatkov, ki jih poslužujejo, ne ustvarijo oni, ustvarijo jih njihovi naročniki in vsi poznamo ta model.

SocietyOne, za katerega morda ali niste slišali, je lokalna blagovna znamka. Mislim, da je v nekaj državah banka dejansko medsebojna posojila, torej z drugimi besedami, nima denarja. Vse, kar počne, je, da upravlja transakcije in podatki so pod njimi. Netflix, vsi smo zelo, zelo dobro seznanjeni s tem. Tu je zanimiva enojna linija. Ko je Netflix zakonito lahko uporabljal v Avstraliji, ko je bila uradno objavljena, vam ni bilo treba uporabiti VPN, da bi do njega prišli, mnogi ljudje po svetu ponavadi - če ne morete priti do nje v svojem lokalnem okolju - Netfix je bil predstavljen v Avstraliji, povečal je mednarodno pasovno širino na naših internetnih povezavah za 40 odstotkov, tako da se je skoraj enkrat podvojila uporaba interneta v Avstraliji čez noč, in sicer za samo eno aplikacijo, eno aplikacijo, gostovano v oblaku, ki ne igra ničesar, razen igranja s podatki. To je samo vznemirljiva statistika.

Seveda smo vsi seznanjeni z Apple in Google, toda to sta največji programski podjetji na planetu, vendar aplikacij dejansko ne pišeta. Kaj je skladno z vsemi temi organizacijami? No, to so podatki in niso prišli tja, ker niso vedeli, kje so njihovi podatki, in niso vedeli, kako bi jih katalogizirali.

Zdaj ugotavljamo, da obstaja celoten novi razred sredstev, ki ga imenujemo podatki, in podjetja se prebujajo. Vendar nimajo vedno orodij, znanja in izkušenj in zato preslikati vse te podatke, katalogizirati vse te podatke in jih dati na razpolago, vendar smo ugotovili, da podjetja s skoraj brez fizičnih sredstev v rekordnem času pridobijo visoko tržno vrednost prek tega novega razreda podatkovnih sredstev. Kot sem že rekel, nekateri stari igralci se zdaj prebujajo in to zagotovo tudi prinašajo.

Jaz sem velik oboževalec, da bi se na malo poti peljal, zato se je v osemnajstih stotih, poznih osemnajstih stotih in s tem boste več kot seznanjeni na ameriškem trgu, izkazalo, da je treba opraviti popis Vsako leto ali tako, mislim, da jih je takrat vodil vsakih deset let, če pa boste vsako leto opravili popis, bi lahko trajalo do osem ali devet let, da dejansko opravite analizo podatkov. Izkazalo se je, da je ta nabor podatkov ostal na poljih na papirju in ga skoraj nihče ni mogel najti. Ti poročili so kar naprej izčrpavali, toda do dejanskih podatkov je bilo zelo težko priti. Podobno situacijo imamo z drugim pomembnim svetovnim trenutkom, okoli 40. let prejšnjega stoletja, z drugo svetovno vojno, in ta stvar je Bemchley Park Bombe, ki jo je napisal BOMBE , in bilo je ogromno analitično orodje za drobljenje številk, ki bi šlo skozi majhne nabore podatkov in v njem poiskalo signale ter se uporabljalo za pomoč pri odpravljanju kod skozi Enigmo.

Ta stvar je bila v bistvu zasnovana naprava, ki ni veliko katalogizirana, ampak označevanje in preslikavanje podatkov ter omogočanje vzorcev in iskanje znotraj podatkovnih nizov, v tem primeru prelom kode, iskanje ključev in stavkov ter iskanje jih redno uporabljamo v naborih podatkov in tako smo že skozi to pot iskali stvari v podatkih in vodili k katalogiziranju podatkov.

In potem so prišle še te stvari, ti ogromni nizkocenovni regali s stroji, ki so samo na roki. In naredili smo nekaj zelo zanimivih stvari in ena izmed stvari, ki smo jih storili z njimi, je, da smo zgradili zelo poceni grozde, ki bi lahko začeli indeksirati planet, in zelo znane so te velike blagovne znamke, ki so prihajale in odhajale, a verjetno je Google najpogostejši dom blagovne znamke, za katero smo že vsi slišali - postala je dejanski glagol, in veste, da ste uspešni, ko vaša blagovna znamka postane glagol. Kar pa nas je naučil Google, ne da bi se tega zavedali, morda tudi v poslovnem svetu, je, da so lahko indeksirali celoten planet na določeno raven in katalogizirali podatke po vsem svetu ter jih dali na voljo zelo enostavno, primerna oblika v majhni enotirni formuli, spletna stran, na kateri ni skoraj ničesar, in vtipkate poizvedbo, gre in jo poišče, ker so planet že prelistali, ga indeksirali in omogočili enostavno dostopnost.

In opazili smo: "No, počakaj, tega ne počnemo v organizacijah - zakaj je tako? Zakaj imamo organizacijo, ki lahko preslika celoten planet in ga indeksira, se plazira in indeksira in da na razpolago, lahko ga poiščemo, nato pa kliknemo na stvar in jo poiščemo, kako to, tega še niste storili interno? "Tako je po vsem svetu veliko teh majhnih stojal strojev, ki to počnejo za intranete in najdejo stvari, vendar se še vedno šele spopadajo z idejo, da bi presegli tradicionalno spletno stran, ali datotečni strežnik.

Namesto da bi zdaj na več načinov vstopili v to naslednjo generacijo kataloga podatkov, odkrivanje dostopa do podatkov prek beležk in pogovorov z vodnim hladilnikom v resnici ni več ustrezna metoda za odkrivanje in katalogiziranje podatkov, pravzaprav pa mislim, da to še nikoli ni bilo . Tega celotnega izziva ne moremo več voditi ljudem, samo da bi si zapisovali, objavljali in klepetali. Zdaj smo dobro in resnično zunaj območja, kjer je pristopil k katalogiziranju podatkov novega generacije. Omogočiti ga moramo. Če bi bilo to enostavno vprašanje, bi ga že prej rešili na več načinov, vendar mislim, da to ni lahka težava, samo indeksiranje in klicanje podatkov je le en del tega, saj vemo, kaj je v podatkih in gradi metapodatke okoli tega, kar odkrijemo, in nato omogočimo, da je na voljo v preprosti, potrošni obliki, zlasti za samooskrbo in analitiko. Še vedno je težava rešena, vendar so mnogi deli uganke v petih letih dobro in resnično rešeni in na voljo.

Kot vemo, ljudje, ki katalogizirajo podatke, so recept za neuspeh, saj je človeška napaka ena največjih nočnih morem, s katerimi se ukvarjamo pri obdelavi podatkov, in redno govorim o tej temi, kjer je po mojem mnenju ljudje, ki izpolnjujejo papirnate obrazce, verjetno največja nočna mora ukvarjamo se z velikimi podatki in analitiko, s tem, da nenehno popravljamo stvari, ki jih počnejo, tudi vse do preprostih stvari, kot so datumi in polja, ki jih ljudje postavljajo v napačno obliko.

Kot sem že povedal, smo videli, da internetni iskalniki vsak dan indeksirajo svet, zato zdaj razmišljamo, da je to mogoče storiti na naborih poslovnih podatkov v postopku odkritja, orodja in sistemi pa so zdaj takoj na voljo, ko se boste danes učili. Trik je resnično po mojem mnenju izbira pravih orodij, najboljših orodij za delo. In še bolj primerno, da poleg tega najdete pravi del, ki vam bo pomagal začeti po tej poti. In verjamem, da bomo o tem slišali danes, toda preden to storim, bom prešel na moj kolegij, Robin Bloor, in slišal njegovo mnenje o tej temi. Robin, lahko prenesem k tebi?

Robin Bloor: Ja, zagotovo lahko. Poglejmo, če to deluje, o, da. Ok, prihajam iz druge smeri kot Dez, vendar bom končal na istem mestu. Gre za povezovanje s podatki, zato sem samo mislil, da bom šel skozi resničnost povezave s podatki, točko za točko.

Obstaja dejstvo, da so podatki bolj razdrobljeni kot doslej. Obseg podatkov narašča fenomenalno, v resnici pa različni viri podatkov prav tako rastejo z neverjetno hitrostjo, zato podatki postajajo vedno bolj razdrobljeni. A zlasti zaradi analitičnih aplikacij - vendar to niso edine aplikacije - imamo res dober razlog za povezavo z vsemi temi podatki, zato smo obtičali na težkem mestu, obtičali smo v svetu razdrobljenih podatkov, in v podatkih je priložnost, kot jo je imenoval Dez, novo olje.

Glede podatkov, no, nekoč je živel na predvajalnem disku, bodisi v datotečnih sistemih ali bazah podatkov. Zdaj živi v veliko bolj raznolikem okolju, živi v datotečnih sistemih, danes pa živi tudi v primerih Hadoop ali celo v primerih Spark. Živi v več vrstah podatkovnih baz. Ne tako dolgo nazaj smo nekako standardizirali neko relacijsko bazo podatkov, dobro veste, da je šlo skozi okno v zadnjih petih letih, ker so potrebne baze podatkov o dokumentih in potrebe po bazah grafov, tako da veste, igra ima spremenjena. Torej je živel na predilnem disku, zdaj pa živi na SSD-ju. Najnovejša količina SSD - zagotovo najnovejša enota SSD prihaja iz Samsung - dvajset gigabajtov, kar je ogromno. Zdaj živi v pomnilniku, v smislu, da je osnovna kopija podatkov lahko v pomnilniku, ne pa na disku, saj nismo uporabljali takšnih sistemov; to počnemo zdaj. In živi v oblaku. Kar pomeni, da lahko živi v kateri koli od teh stvari, v oblaku, ne boste nujno vedeli, kje je v oblaku, imeli boste le njen naslov.

Hadoop doslej ni uspel kot razširljiva shramba podatkov. Upali smo, da bo postala razširljiva shramba podatkov z obsežnim obsegom in bo le postala en datotečni sistem za vse, in to bi bilo - v bistvu bi se na nebu pojavile mavrice, naokoli bi plesali samorogi, in nič od tega se ni zgodilo. Kar pomeni, da se na koncu srečamo s težavo prenosa podatkov, pri čemer ni potrebe po prenosu podatkov, vendar je to tudi težava. Podatki danes resnično imajo resnost, ko enkrat pridete v večterabajtne podatke, jih poberete in vržete okoli sebe, na neki način povzročajo zamude v vašem omrežju ali pa se pojavljajo na različnih mestih. Če želite podatke prenašati naokoli, je čas določanje časa. Dandanes skoraj vedno obstajajo omejitve, koliko časa imate, da dobite eno stvar, en podatek iz enega kraja v drugega. Včasih je bilo to, kar smo si zamislili kot šaržna okna, ko je stroj v prostem teku, in ne glede na to, koliko podatkov ste imeli, bi ga lahko vrgli naokrog in vse se bo obneslo. No, tega ni več, živimo v veliko bolj realnem svetu. Zato je časovni dejavnik dejavnik. Takoj, ko želite premikati podatke, tako da, če imajo podatki težo, jih verjetno ne morete premikati.

Upravljanje podatkov je dejavnik v smislu, da morate dejansko upravljati vse te podatke, tega ne dobite brezplačno, podvajanje pa je morda potrebno, da bi dejansko lahko dobili podatke, da lahko opravijo svoje delo, ker lahko opravijo, ker lahko ne bodi kamorkoli si ga postavil. Morda nima dovolj sredstev za normalno obdelavo podatkov. Tako se podatki podvajajo, podatki pa se kopirajo več, kot bi si predstavljali. Mislim, da mi je nekdo že dolgo nazaj rekel, da se povprečen podatek podvaja vsaj dvakrat in pol. ESB ali Kafka predstavljajo možnost pretoka podatkov, danes pa zahteva arhitekturo. Dandanes morate na tak ali drugačen način razmišljati o tem, kaj pravzaprav pomeni metati podatke. Zato je ponavadi zaželeno dostopati do podatkov tam, kjer so, seveda, če seveda lahko dobite zmogljivost, ki jo potrebujete, ko dejansko želite podatke, in to je odvisno od kon. Torej je vsekakor težka situacija. V zvezi s podatkovnimi poizvedbami smo včasih znali razmišljati v smislu SQL, prišli smo res zdaj, veste, različne oblike poizvedb, SQL da, ampak sosednja, tudi poizvedba grafov, Spark je le en primer početja grafa , ker tudi moramo iskati več kot kdajkoli prej, tudi z iskanjem regularnih oblik, kar je resnično zapleteno iskanje vzorcev, in resnično ujemanje vzorcev, vse te stvari pravzaprav izpuhtijo. In vsi ti so koristni, ker dobijo tisto, kar iščeš, ali pa ti dobijo tisto, kar iščeš.

Poizvedbe zdaj zajemajo več podatkov, zato tega vedno ni storilo, pogosto pa je uspešnost, če to storite. Torej, odvisno je od okoliščin, vendar ljudje pričakujejo, da bodo lahko poizvedovali po podatkih iz več virov, zato je federacija podatkov takšnih ali drugačnih vrst vedno bolj aktualna. Zelo pogosta je tudi virtualizacija podatkov, ki je različen način, odvisno od uspešnosti. Podatkovne poizvedbe so pravzaprav del procesa in ne celotnega procesa. Velja samo poudariti, da če dejansko gledate na uspešnost analitike, lahko dejanska analitika traja precej dlje kot zbiranje podatkov, ker je to odvisno od okoliščin, a poizvedbe po podatkih so nujno potrebne, če želite storiti katero koli vrste analitike na več virov podatkov, in res, dejansko morate imeti zmogljivosti, ki segajo.

Torej o katalogih.Katalogi obstajajo z razlogom, vsaj mi pravimo, da veste, da, imamo imenike in imamo sheme v zbirkah podatkov, vsak katalog imamo in kamor koli greste, boste našli eno mesto in potem boste dejansko ugotovi, da obstaja nekakšen katalog, in poenoten globalni katalog je tako očitno dobra ideja. Toda zelo malo podjetij ima takšno. Spomnim se, da je bilo v letu dva tisoč - v dve tisoč letih panike - spomnim, da komunisti sploh niso mogli določiti, koliko izvršnih datotek so imeli, ne glede na to, koliko različnih shramb podatkov so imeli, in verjetno je zdaj tako, vedo, da večina podjetij v globalnem smislu ne ve aktivno, katere podatke ima. Toda očitno postaja vse bolj potrebno imeti globalni katalog ali vsaj imeti globalno sliko o tem, kaj se dogaja zaradi rasti virov podatkov in nenehne rasti aplikacij, še posebej pa je to potrebno za analitiko, ker tudi vi na en način in tukaj obstajajo druga vprašanja, kot so ločitev in težave s podatki in je zaradi varnosti potrebno veliko vidikov upravljanja podatkov, če res ne veste, katere podatke imate, idejo, da bo to urejalo, je nesmiselno. Tako da so vsi podatki na nek način katalogizirani samo dejstvo. Vprašanje je, ali je katalog skladen in kaj lahko z njim storite. Torej se bom vrnil k Rebeki.

Rebecca Jozwiak: V redu, hvala Robin. Zraven imamo Davida Crawforda iz Alationa, David, šel bom naprej in ti žogo prenesel, ti pa ga lahko odneseš.

David Crawford: Najlepša hvala. Resnično cenim, da me imate na tej predstavi. Mislim, da bom to začel, zato mislim, da je moja vloga tu, da vzamem nekaj te teorije in pogledam, kako se dejansko uporablja, in rezultate, ki jih lahko dosežemo pri pravih kupcih in tako lahko vidite nekaj na diapozitivu, želim spregovoriti o tem, kakšne rezultate bomo lahko videli pri analitičnem morebitnem izboljšanju. Torej, da motiviramo razpravo, bomo govorili o tem, kako so prišli tja. Tako imam srečo, da bom dokaj tesno sodeloval z veliko resnično pametnimi ljudmi, temi strankami, in samo želim opozoriti na nekaj, ki jih je bilo mogoče dejansko izmeriti, in spregovoriti o tem, kako je katalog podatkov vplival na njihovega analitika potek dela In če na kratko ostanemo spredaj, menim, da je ena od stvari, ki jih vidimo, s katalogi podatkov s prejšnjimi posredovanimi rešitvami in enim od načinov, kako odnosi resnično razmišljajo o rešitvah, ki jih imamo skupaj, ta, da začnemo z analitiki in delati nazaj. Recimo, da omogočimo produktivnost analitikov. V nasprotju s samo skladnostjo ali v nasprotju s samo inventuro ustvarjamo orodje, ki analitike naredi bolj produktivno.

Ko se torej pogovarjam s podatkovnim znanstvenikom v podjetju za finančne storitve Square, je nekdo Nick, ki nam je pripovedoval o tem, kako je njegov. Včasih je potreboval več ur, da je našel ustrezen nabor podatkov za začetek poročila, zdaj pa lahko to storite v nekaj sekundah z iskanjem tržnega deleža, pogovarjali smo se s njihovim CTO, ki je potegnil svoje analitike, ki so uporabljali Square, oprostite, je bil z Alationom, da bi ugotovil, kaj je njihovo, kakšne koristi so videli in poročali o odstotno povečanje produktivnosti in da eBay, eden najboljših svetovnih trgovcev na drobno, ima več kot tisoč ljudi, ki redno delajo SQL analize, in precej tesno sodelujem z Deb Says tam, ki je projekt v njihovi skupini za podatkovna orodja, in ugotovila je, da ko poizvedovalci sprejmejo Alation, sprejmejo katalog, opazijo dvojno hitrost pisanja novih poizvedb v bazo podatkov.

To so resnični rezultati, to so ljudje, ki dejansko uporabljajo katalog v svoji organizaciji, in rad bi vas seznanil s tem, kar je potrebno, da se nastavite. Kako se katalog ustanovi v podjetju in je morda najpomembneje povedati, da se veliko zgodi samodejno, zato je Dez govoril o sistemih, se učil o sistemih in prav to počne sodoben katalog podatkov. Torej namestijo Alation v svoj podatkovni center in ga nato povežejo z različnimi viri metapodatkov v svojem podatkovnem okolju. Nekoliko se bom osredotočil na podatkovne baze in BI-orodja - iz obeh bomo izvlekli tehnične metapodatke, in sicer o tistem, kar že obstaja. Kajne mize? Kakšna poročila? Kakšne so opredelitve poročila? Torej izvlečejo te tehnične metapodatke in kataloška stran se samodejno ustvari za vsak predmet znotraj teh sistemov, nato pa izvlečejo in plast nad temi tehničnimi metapodatki, plastejo nad podatke o uporabi. To se izvaja predvsem z branjem dnevnikov poizvedb iz baze podatkov in to je res zanimiv vir informacij. Torej, kadar analitik napiše poizvedbo, kadar koli orodje za poročanje, ali je doma pridelano ali zunaj police, ali orodje za poročanje izvede poizvedbo za posodobitev nadzorne plošče, ko aplikacija izvede poizvedbo za vstavljanje podatkov, s katerimi deluje nabor podatkov - vse te stvari so zajete v dnevnikih poizvedb baze podatkov. Ne glede na to, ali imate katalog ali ne, so zajeti v dnevnik poizvedb z bazo podatkov. Kaj lahko naredi katalog podatkov, še posebej, kaj lahko naredi katalog Alations, je, da preberete te dnevnike, postavite poizvedbe v njih in na podlagi teh dnevnikov ustvarite res zanimiv graf uporabe in to sprostimo za obveščanje bodočih uporabnikov podatkov o tem, kako so jih pretekli uporabniki podatkov uporabljali.

Torej, vse to znanje zberemo v katalog, in da bi to resnično uresničili, to so integracije, ki so že uvedene pri kupcih, zato smo videli Oracle, Teradata, Redshift, Vertica in kup drugih relacijske baze podatkov. V svetu Hadoop obstaja vrsta SQL na Hadoopu, neke vrste relacijske, meta shrambe na datotečnem sistemu Hadoop, Impala, Tez, Presto in Hive, uspeh pa smo videli tudi pri zasebnih ponudnikih oblakov Hadoop, kot je Altiscale, in so se lahko povezali tudi s strežniki Tableau, strežniki MicroStrategy in indeksirali tamkajšnje nadzorne plošče, pa tudi integracije z orodji za grafikovanje podatkov, kot je Plotly.

Torej, povezujemo se z vsemi temi sistemi, te sisteme smo povezali s strankami, vključili smo tehnične metapodatke, vlekli podatke o uporabi in nekako avtomatično napolnili katalog podatkov, a na ta način smo centralizirajte znanje, vendar zgolj centraliziranje stvari v podatkovnem katalogu, samo po sebi ne zagotavlja tistih res čudovitih povečanj produktivnosti, o katerih smo govorili z eBay, Trgom in tržnim deležem. Da bi to dosegli, moramo dejansko spremeniti način razmišljanja o predaji znanja analitikom. Eno od vprašanj, ki si jih želijo pripraviti na to, je bilo "Kako katalog dejansko vpliva na potek analitika?"

To je tisto, o čemer smo ves dan razmišljali, in da bi spregovorili o tej spremembi razmišljanja, o potisnih verzih vlečnem modelu, sem želel na hitro opraviti analogijo s tem, kakšen je bil svet pred in po branju na Kindle. Torej je to zgolj izkušnja, ki jo imajo nekateri od vas, ko berete fizično knjigo, naletite na besedo, niste prepričani, da poznate definicijo te besede zelo dobro, morda ugibate iz con, ne pa verjetno, da bi se dvignite s kavča, se sprehodite do svoje knjižne police, poiščite svoj slovar, ga oprašite in odpeljite na pravo mesto na abecednem seznamu besed, da se prepričate, da, da, imeli ste to definicijo ravno prav, in veste nianse tega. Torej se res ne zgodi. Torej kupite aplikacijo Kindle in tam začnete brati knjige in vidite besedo, o kateri niste povsem prepričani, in se dotaknete besede. Kar naenkrat, prav na tem istem zaslonu, je slovarska opredelitev besede z vsemi njenimi niansami, različnimi primeri uporabe in malo povlecite in dobite članek iz Wikipedije na to temo, spet povlecite, dobite orodje za prevajanje, ki ga lahko prevedete v druge jezike ali iz drugih jezikov, kar naenkrat pa je vaše znanje jezika toliko bogatejše, kar se zgodi presenetljivo večkrat, v primerjavi s tem, ko ste morali iti in potegnite ta vir zase.

Torej, kar bom trdil, je, da je potek dela za analitika in način, kako se bo analitik ukvarjal s podatkovno dokumentacijo, pravzaprav zelo podoben načinu, kako bo bralec sodeloval s slovarjem, bodisi fizičnim, bodisi Kindle, in to, kar mi, tako kot smo res videli to povečanje produktivnosti, ne širi kataloga, ampak ga poveže z delovnim tokom analitika, in tako so me prosili, naj naredim demonstracijo tukaj, in želim da bi bil to središče te predstavitve. Ampak samo želim postaviti predstavitev za demo. Ko razmišljamo o tem, kako uporabnikom podatke posredovati, ko jih potrebujejo, mislimo, da je pravi kraj za to, kraj, kjer preživijo svoj čas in kjer delajo analizo, orodje za poizvedbe SQL. Kraj, kjer pišete in izvajate poizvedbe SQL. In tako smo ga zgradili in ga zgradili, kar se pri njem resnično razlikuje od drugih poizvedbenih orodij, je njegova globoka integracija s katalogom podatkov.

Tako se naše orodje za poizvedbe imenuje Alation Compose. To je spletno orodje za poizvedbe in pokazal vam ga bom v sekundi. Spletno orodje za poizvedbe, ki deluje na vseh tistih logotipih baze podatkov, ki ste jih videli na prejšnjem diapozitivu. Zlasti bom poskusil predstaviti način, kako informacije o katalogu pridejo do uporabnikov. In to počne na takšne tri različne načine. To počne z intervencijami, in tam, kjer nekdo, ki upravlja guvernerje podatkov, vodja podatkov ali nekakšen skrbnik ali upravitelj, lahko reče: "Želim nekako posredovati z noto ali opozorilom v potek dela in se prepričajte, da bo uporabnikom dostavljen ob pravem času. "To je intervencija in to tudi dobro kažejo.

Pametni predlogi so način, pri katerem orodje uporabi celotno svoje zbirno znanje iz kataloga, da predlaga predmete in dele poizvedbe, ko jih pišete. Najpomembnejše, kar morate vedeti, je, da resnično izkoristite dnevnik poizvedb, če želite to narediti, predlagati stvari, ki temeljijo na uporabi, in najti celo dele poizvedb, ki so bile že napisane. In to dobro pokažite.

In potem predogledi. Predogled vam med vnašanjem imena predmeta pokažemo vse, kar katalog pozna, ali vsaj najpomembnejše stvari, ki jih katalog pozna o tem predmetu. Torej, vzorci podatkov, ki so jih prej uporabljali, logično ime in opis predmeta, vam pridejo v poštev, medtem ko jih pišete, ne da bi jih morali vprašati.

Torej, ne da bi se več pogovarjal, pridem do demonstracije, in jaz bom čakal, da se pojavi. Kar vam bom tukaj pokazal, je orodje za poizvedbe. Namenski vmesnik za pisanje SQL. V določenem smislu je ločen vmesnik od kataloga. Dez in Robin sta se pogovarjala o katalogu, Im pa sem malo skočil po kataloškem vmesniku naravnost do tega, kako je prišlo neposredno v servisni potek.

Tukaj le prikazujem mesto, kjer lahko vtipkam SQL, in na dnu boste videli, da imamo neke informacije o tem, na katere se sklicujejo. Zato bom šele začel pisati poizvedbo in se ustaviti, ko pridem do enega od teh posegov. Torej boleče vpišem "izberi", in želim leto. Hočem ime. Poiskal bom nekaj podatkov o plačah. To je nabor podatkov o izobraževanju. Ima podatke o visokošolskih zavodih, in jaz gledam na povprečno plačo fakultete v eni od teh tabel.

Torej sem vtipkal besedo "plača". To ni ravno v imenu stolpca. Za predloge uporabljamo tako logične metapodatke kot fizične metapodatke. In tukaj želim poudariti to rumeno polje, ki se pojavlja tukaj. Na tem stolpcu piše opozorilo. Nisem iskal tega, nisem tečaj, kako pravilno uporabiti te podatke. Prišlo je do mene in zgodilo se je kot opozorilo o sporazumu o zaupnosti, ki je povezan s temi podatki. Torej obstaja nekaj pravil o razkritju. Če bom poizvedoval po teh podatkih, bom podatke vzel iz te tabele, bi moral biti previden, kako jih razkrijem. Torej imate tukaj politiko upravljanja. Obstaja nekaj izzivov glede skladnosti, zaradi katerih je toliko lažje upoštevati to politiko, ko o njej vem, ko gledam podatke.

Torej sem dobil to do mene in potem bom šel tudi pogledat šolnino. In tu vidimo, da se predogledi začnejo uporabljati. V tem stolpcu za učenje sem videl - tam je stolpec za pouk na institucionalni tabeli in jaz vidim njegov profil. Alation gre in potegne vzorčne podatke iz tabel, in v tem primeru mi prikaže nekaj zanimivega. Prikazuje mi porazdelitev vrednosti in kaže, da se je v vzorcu ničelna vrednost pokazala 45-krat, in več kot katera koli druga vrednost. Tako imam nekaj občutka, da nam morda manjkajo nekateri podatki.

Če sem napredni analitik, je to morda že del mojega delovnega procesa. Še posebej, če sem posebno natančen, kjer bi pred časom opravil kup poizvedovalnih profilov. Kadar koli se približujem novemu podatku, vedno pomislim, kakšno je naše zajetje podatkov. Ampak, če sem nov za analizo podatkov, če sem nov za ta nabor podatkov, lahko domnevam, da če je tam stolpec, je ves čas izpolnjen. Lahko pa domnevam, da če ni izpolnjeno, ni nič, je ničelno ali kaj podobnega. Toda v tem primeru imamo veliko nič, in če bi naredil povprečje, bi se verjetno zmotili, če bi samo domneval, da so te ničle namesto manjkajočih podatkov.

Toda Alation vas s tem, ko vnesete ta predogled v svoj potek dela, nekako prosi, da si ogledate te podatke in celo nekaterim novomeškim analitikom omogoči, da vidijo, da je tu nekaj opaziti v zvezi s temi podatki. Torej imamo ta predogled.

Naslednja stvar, ki jo bom storil, bom poskušal ugotoviti, iz katerih tabel je mogoče dobiti te podatke. Torej, tukaj vidimo pametne predloge. Ves čas poteka, predvsem pa tukaj nisem ničesar vtipkal, ampak mi bo predlagal, katere tabele bi želel uporabiti za to poizvedbo. In najpomembnejše, kar morate vedeti o tem, je, da izkoristi statistiko uporabe. Torej je v okolju, kot je na primer eBay, kjer imate na stotine tisoč tabel v eni bazi podatkov, orodje, ki lahko nekako zadene pšenico iz sečnice, in z uporabo teh statistik uporabe zelo pomembno za njihovo izdelavo predlogi nekaj vreden.

Zato bo predlagala ta tabela. Ko pogledam predogled, dejansko izpostavimo tri stolpce, ki sem jih omenil že v poizvedbi. Torej vem, da ima svoj tri, vendar nima imena. Moram dobiti ime, zato se bom pridružil. Ko se pridružim, imam spet te predoglede, ki mi bodo pomagali najti, kje je tabela z imenom. Tako vidim, da ima ta lepo oblikovano, nekako pravilno napisano veliko ime. Zdi se, da ima ena vrstica z imenom za vsako institucijo, zato bom to pograbil in zdaj potrebujem pogoj za pridružitev.

In tako, to, kar počne Alation, je spet pregledovanje dnevnikov poizvedb, prejšnjič, ko sta se ti dve tabeli združili, in predlaganje različnih načinov, kako ju povezati. Še enkrat je tu nekaj posega. Če pogledam enega od teh, je moje opozorilo pokazalo, da je treba to uporabiti samo za skupno analizo. Verjetno bo nastalo napačno, če boste skušali nekaj narediti preko institucije. Ker je ta, je ID OPE potrjen kot ustrezen način za združevanje teh dveh tabel, če želite podatke na ravni univerze. Torej, to storim in to je kratka poizvedba, vendar sem svojo poizvedbo napisal, ne da bi nujno imel vpogled v podatke. Nikoli si nisem ogledal ER-diagrama tega nabora podatkov, vendar o teh podatkih vem precej veliko, ker mi pridejo ustrezne informacije.

To so nekako trije načini, kako lahko katalog s pomočjo integriranega orodja za poizvedbe neposredno vpliva na potek dela med pisanjem poizvedb. Toda ena od drugih prednosti, da je orodje za poizvedbe integrirano s katalogom, je ta, da lahko, ko končam poizvedbo in jo shranim, dam naslov, kot je "Izobraževanje v zavodih in fakultetna plača", in tukaj imam gumb, ki mi omogoča, da ga samo objavim v katalogu. Zelo enostavno mi je hraniti to hrbet. Tudi če ga ne objavim, se zajame kot del poizvedbenega dnevnika, ko pa ga objavim, dejansko postane del poti, ki je centraliziran kraj, kjer živi vse podatkovno znanje.

Torej, če kliknem Iskanje vseh poizvedb v Alation, bom prevzeta - in tu boste videli še nekaj vmesnika kataloga - Odpeljala se bom v namensko iskanje poizvedb, ki mi pokaže način iskanja poizvedb v celotni organizaciji. In vidite, da je moja novo objavljena poizvedba na vrhu. In nekateri bi morda opazili tukaj, ko zajemamo poizvedbe, zajamemo tudi avtorje in nekako vzpostavljamo ta odnos med mano kot avtorjem in temi predmeti, o katerih zdaj nekaj vem. In jaz sem uveljavljen kot strokovnjak za to poizvedbo in za te podatke. To je zelo koristno, ko se morajo ljudje naučiti podatkov, potem lahko poiščejo pravo osebo, o kateri se bodo učili. In če sem pravzaprav nov za podatke, ali sem napredni analitik - kot napredni analitik, bi to lahko pogledal in videl kup primerov, s katerimi bi začel delovati na novem naboru podatkov. Kot nekdo, ki morda ne čuti super pametnega s SQL-om, lahko najdem vnaprej izdelane poizvedbe, ki so poročila, ki jih lahko izkoristim.

Tu je Phil Mazanett objavil ocene o srednjih ocenah SAT. Kliknite na to in dobim nekakšno stran kataloga za samo poizvedbo. Govori o članku, ki je bil napisan, v katerem se sklicuje na to poizvedbo, zato je nekaj dokumentacije, ki jo lahko preberem, če se želim naučiti, kako jo uporabljati. In v orodju za poizvedbe ga lahko odprem s pritiskom na gumb Compose in lahko samo tukaj zaženem, ne da bi ga sploh uredil. Pravzaprav boste videli malo naših lahkih zmožnosti poročanja, kjer lahko med pisanjem poizvedbe spustite spremenljivko predloge, kot je ta, in ustvari preprost način za oblikovanje obrazca za izvajanje poizvedbe na podlagi par parametrov.

To je tisto, kar imam za demo. Preklopil se bom nazaj na diapozitive.Samo za povzetke smo pokazali, kako lahko skrbnik, upravljalec podatkov, posreduje tako, da opozorila na predmete, ki se pokažejo v orodju za poizvedbe, kako Alation svoje znanje o uporabi podatkovnih predmetov uporablja za pametne predloge, kako prinaša v profiliranju in drugih nasvetih za izboljšanje delovnih procesov analitikov, ko se dotikajo določenih predmetov, in kako se vse tovrstne vire vrnejo v katalog, ko se napišejo nove poizvedbe.

Očitno sem predstavnik podjetja v imenu podjetja. O katalogu podatkov bom povedal lepe stvari. Če želite slišati neposredno od ene od naših strank, Kristie Allen v Safewayu vodi skupino analitikov in ima res kul zgodbo o času, ko je za izvedbo marketinškega eksperimenta potrebovala, da bi resnično premagala uro. ekipa Alation je uporabila sodelovanje in se zelo hitro obrnila na tem projektu. Tako lahko sledite tej povezavi bit.ly, da preverite to zgodbo, ali če želite slišati malo o tem, kako bi Alation lahko v vašo organizacijo vnesel katalog podatkov, bomo z veseljem postavili prilagojen predstavitveni prikaz. Najlepša hvala.

Rebecca Jozwiak: Najlepša hvala, David. Prepričan sem, da imata Dez in Robin še nekaj vprašanj, preden bom prešel na vprašanja in vprašanja občinstva. Dez, ali bi rad šel prvi?

Dez Blanchfield: Vsekakor. Všeč mi je ideja tega koncepta objavljenih poizvedb in ga povežem z izvorom avtorstva. Bil sem dolgoletni zagovornik te ideje lastne trgovine z aplikacijami in mislim, da je to res odlična osnova za gradnjo na tem.

Nekako sem dobil vpogled v nekatere organizacije, ki ste jih videli, in nekatere zgodbe o uspehu, ki bi jih lahko imeli na tem celotnem potovanju, ne samo, da uporabite svoje orodje in platformo za odkrivanje podatkov, ampak tudi potem preoblikujejo svoje notranje kulturne in vedenjske lastnosti. Zdaj ima tovrstno hišno trgovino z aplikacijami, v katero nekako prenašate, koncept, v katerem ne morejo le najti, ampak dejansko lahko začnejo razvijati majhne skupnosti s skrbniki tega znanja.

David Crawford: Ja, mislim, da smo bili presenečeni. Verjamemo v vrednost izmenjave poizvedb, tako iz moje preteklosti kot produktnega vodje v Adtechu, kot tudi od vseh strank, s katerimi smo govorili, vendar sem še vedno presenečen, kako pogosto je ena prvih stvari, o katerih stranke govorijo kot o vrednost, ki jo dobijo iz Alation.

Nekaj uporabniškega testiranja orodja za poizvedbe sem opravil pri eni od naših strank, imenovanem Invoice2go, in imeli so upravitelja izdelkov, ki je bil razmeroma nov, in rekli so mi - dejansko mi je med uporabniškim testom rekel, neokusen: "Pravzaprav ne bi pisal SQL sploh, razen tega, da ga Alation olajša. "In seveda kot premier nekako odidem:" Kako to mislite, kako smo to naredili? "In on je rekel:" No, res samo zato, ker sem se lahko prijavim in vidim vse te obstoječe poizvedbe. "Začeti s prazno skrilavko s SQL je neverjetno težko narediti, vendar spremeniti obstoječo poizvedbo, kjer lahko vidite, da je rezultat izpuščen, in lahko rečete:" Oh , Potrebujem samo ta dodatni stolpec "ali" Moram ga filtrirati do določenega obdobja ", to je veliko lažja stvar.

Videli smo vrste teh pomožnih vlog, na primer vodje izdelkov, morda ljudje v prodajnih podjetjih, ki se začnejo pobirati in ki so se vedno radi naučili SQL in ga začeli pobirati s pomočjo tega kataloga. Prav tako smo videli, da je veliko podjetij poskušalo narediti nekakšen open source. Te vrste stvari sem poskušal vgraditi v notranjost, kjer sledijo poizvedbam in jih dajo na razpolago, in tam je resnično nekaj težavnih izzivov oblikovanja, da bi jih naredili uporabne. je imel interno orodje, ki so ga poimenovali HiPal, ki je zajel vse poizvedbe, napisane na Hive, toda, kar ugotoviš, je, da če ne pritiskaš na uporabnike na pravilen način, si na koncu zelo dolg seznam izbranih izjav. In kot uporabnik, ki poskuša ugotoviti, ali mi je poizvedba koristna ali če je kakšna dobra, če samo pogledam dolg seznam izbranih izjav, mi bo trajalo veliko dlje, da tam dobim nekaj koristnega kot začenši iz nič. Precej natančno smo razmišljali, kako narediti katalog poizvedb, ki bo spravil prave stvari na sprednjo stran in jih zagotovil na uporaben način.

Dez Blanchfield: Mislim, da gremo na to pot vse od malih nog, vse do odraslosti, na več načinov. Kup tehnologij. Tudi jaz osebno sem šel skozi tisto zelo pristno stvar, kot sem se naučil rezati kodo. Šel bi po revijah in nato po knjigah, študiral bi do določene stopnje, potem pa bi moral iti in se na njem pravzaprav še nekaj izobraževati in izobraževati.

Toda nehote sem ugotovil, da sem se, ko sem se učil in bral revije, bral knjige in sekal programe drugih ljudi ter hodil na tečaje, še vedno učil toliko iz tečajev, kot sem se samo pogovarjal z drugimi ljudje, ki so imeli nekaj izkušenj. In mislim, da je zanimivo odkritje, da smo zdaj, ko to pripeljete do analitike podatkov, v bistvu videli isto vzporednico, da so človeška bitja dokaj pametna.

Druga stvar, ki jo resnično želim razumeti, je, da se na zelo visoki ravni mnoge organizacije sprašujejo: »Koliko časa traja, da pridete do te točke?« Kakšen je časovni okvir, ko ljudje dobijo vašo platformo namestili in začeli odkrivati vrste orodij? Kako hitro ljudje samo nekako vidijo, da se ta stvar spremeni v resnično "a-ha" trenutek, ko se zavedajo, da se za donosnost naložbe sploh ne skrbijo, ker je tam, zdaj pa dejansko spreminjajo način poslovanja? In odkrili so izgubljeno umetnost in pričakujejo, da bodo z njo lahko naredili nekaj resnično zares zabavno.

David Crawford: Ja, lahko se ga malo dotaknem. Mislim, da ko namestimo, je ena izmed lepih stvari, ena od stvari, ki jih imajo ljudje radi pri katalogu, ki je neposredno povezan v podatkovne sisteme, ta, da ne začnete prazno, kamor ga morate izpolniti na strani stran. In to nekako velja za prejšnje podatkovne rešitve, kjer začnete s praznim orodjem in morate začeti ustvarjati stran za vse, kar želite dokumentirati.

Ker toliko stvari samodejno dokumentiramo tako, da izvlečemo metapodatke, v bistvu v nekaj dneh po namestitvi programske opreme, si lahko v orodju ogledate sliko vašega podatkovnega okolja, ki je vsaj 80 odstotkov. In potem pomislim, da takoj, ko ljudje začnejo pisati poizvedbe z orodjem, se samodejno shranijo nazaj v katalog in tako se začnejo tudi prikazovati.

Nočem biti pretirano željan, ko bi to izjavil. Mislim, da je dva tedna precej dobra konzervativna ocena, do enega meseca. Dva tedna do meseca, konzervativna ocena, kako se resnično vrtiš in se počutiš, kot da dobiš vrednost od tega, kot da začneš deliti nekaj znanja in biti zmožen iti tja in izvedeti stvari o svojih podatkih.

Dez Blanchfield: Resnično presenetljivo, ko pomisliš na to. Dejstvo, da bodo nekatere velike platforme podatkov, ki jih učinkovito indeksirate in katalogizirale, včasih potrebovale tudi eno leto, da se pravilno izvedejo, uporabijo in ustanovijo.

Zadnje vprašanje, ki sem ga dobil, preden sem se predal Robin Bloorju, so konektorji. Ena od stvari, ki mi takoj poskoči, je, da si očitno rešil celoten izziv. Torej je nekaj vprašanj zelo hitro. Prvič, kako hitro se izvajajo priključki? Očitno začnete z največjo platformo, kot so Oracles in Teradatas in tako naprej, kot tudi DB2. Toda kako redno opažate, da prihajajo novi priključki in kakšen čas prenosa? Predstavljam si, da imate za njih standardni okvir. In kako globoko se spuščate v to? Na primer svetovne organizacije Oracles in IBM in celo Tereadata, nato pa nekatere bolj priljubljene platforme poznega odprtega vira. Ali delajo neposredno z vami? Ga odkrijete sami? Ali morate imeti znanje o teh platformah?

Kako izgleda razviti konektor in kako globoko se vključite v ta partnerstva, da zagotovite, da ti konektorji odkrijejo vse, kar morete?

David Crawford: Ja, zagotovo, to je veliko vprašanje. Mislim, da večinoma lahko razvijemo konektorje. Zagotovo smo to storili, ko smo bili mlajši startup in nismo imeli kupcev. Povezave lahko zagotovo razvijemo, ne da bi potrebovali notranji dostop. Nikoli ne dobimo posebnega dostopa do podatkovnih sistemov, ki niso javno dostopni in pogosto ne potrebujemo nobenih notranjih informacij. Izkoristimo storitve metapodatkov, ki so na voljo v samih podatkovnih sistemih. Pogosto so lahko precej zapletene in jih je težko delati. Predvsem poznam SQL Server, kako upravljajo dnevnik poizvedb, ima več različnih konfiguracij in nekaj, kar resnično morate delati. Za pravilno nastavitev morate razumeti odtenke, gumbe in številčnice, in to je nekaj, s čimer sodelujemo s strankami, saj smo to storili že večkrat.

Do določene mere pa so na voljo javne vrste API-jev ali na voljo javni vmesniki, ki jih uporabljamo. Imamo partnerstva z več takšnimi podjetji, ki so večinoma razlogi za certificiranje, tako da se počutijo udobno, ko govorimo, da delamo, in tudi, da nam lahko zagotovijo vire za testiranje, včasih zgodnji dostop, morda do platforme, ki izhaja, da se prepriča, da delamo na novih različicah.

Ponovno bi rekel novo povezavo in poskušal biti konzervativen, recimo šest tednov do dveh mesecev. Odvisno je, kako podobna je. Nekateri Postgre delujejo nekako podobno kot Redshift. Redshift in Vertica delita veliko svojih podrobnosti. Tako lahko izkoristimo te stvari. Ampak ja, šest tednov do dveh mesecev bi bilo pošteno.

Imamo tudi API-je, tako da - tudi o Alation razmišljamo kot o metapodatkovni platformi, tako da, če ne bomo dosegli ničesar, kar bi lahko dosegli in samodejno zgrabili, obstajajo načini, kako lahko sami napišete konektor in ga potisnete v naš sistem. da se vse še vedno centralizira v enem samem iskalniku.

Dez Blanchfield: Fantastično. Cenim, da. Torej ga bom izročil Robinu, saj sem prepričan, da ima tudi on veliko vprašanj. Taščica?

Rebecca Jozwiak: Robin je morda brez zvoka.

Dez Blanchfield: Utišali ste se.

Robin Bloor: Ja seveda. Oprosti, sam sem izključil zvok. Ko to izvedete, kaj je postopek? Nekdo sem radoveden, ker je na mnogih mestih lahko veliko podatkov. Kako to deluje?

David Crawford: Ja seveda. Vstopimo najprej z nekaterim postopkom IT, s čimer zagotovimo, da so naši strežniki na voljo, da so na voljo omrežne povezave, da so vrata odprta, da lahko dejansko dostopamo do sistemov. Vsi pogosto vedo, s katerimi sistemi želijo začeti. Poznavanje podatkovnega sistema, ki jim - in včasih jim dejansko pomagamo. Pa jim pomagajte, da najprej pregledajo dnevnik poizvedb, da razumejo, kdo uporablja, kaj in koliko uporabnikov imajo v sistemu. Torej, pomagajte ugotoviti, kje - pogosto, če imajo stotine ali tisoče ljudi, ki bi se lahko prijavili v baze podatkov, dejansko ne vedo, kje se prijavijo, zato lahko iz dnevnikov poizvedb ugotovimo, koliko edinstvenih uporabniških računov počne tukaj se dejansko prijavljate in izvajate poizvedbe v približno enem mesecu.

Tako lahko to izkoristimo, vendar pogosto le na najpomembnejših. Nastavimo jih in nato začnemo reči: "Dajmo prednost." Obstaja vrsta dejavnosti, ki se lahko zgodijo vzporedno. Osredotočil bi se na usposabljanje za uporabo poizvedovalnega orodja. Ko ljudje začnejo uporabljati orodje za poizvedbe, najprej veliko ljudi ljubi dejstvo, da je le en sam vmesnik za vse njihove različne sisteme. Všeč jim je tudi dejstvo, da njegova spletna stran ne vključuje nobenih namestitev, če tega nočejo. Z vidika varnosti jim je všeč, da imajo nekakšno vhodno točko, z vidika omrežja, med vrstam korporacijskega IT omrežja in podatkovnim centrom, kjer živijo proizvodni viri podatkov. Tako bodo Alation postavili kot orodje za poizvedbe in začeli uporabljati Compose kot dostopno točko za vse te sisteme.

Ko se to zgodi, se osredotočimo na usposabljanje, potem ko razumemo, kakšne so razlike med spletnim ali strežniškim orodjem za poizvedbe v primerjavi z enim, ki ga imate na namizju, in nekatere nianse uporabe tega. Hkrati pa poskušamo identificirati najdragocenejše podatke in ponovno izkoristiti podatke dnevnika poizvedb ter reči: "Hej, morda bi radi stopili v pomoč in ljudem pomagali razumeti te podatke. Naj na teh tabelah začnemo objavljati reprezentativna vprašanja. "To je včasih najučinkovitejši način, da se ljudje hitro spustijo. Oglejmo si svojo zgodovino poizvedb, jih objavite tako, da se prikažejo kot prve poizvedbe. Ko ljudje pogledajo stran tabele, lahko vidijo vse poizvedbe, ki so se dotaknile te tabele, in lahko začnejo od tam. In nato omogočimo, da tem predmetom dodate naslove in opise, da jih boste lažje našli in iskali, tako da boste vedeli nekatere nianse, kako jih uporabljati.

Poskrbimo, da bomo natančno pregledali dnevnik poizvedb, da bomo lahko ustvarili rodove. Ena izmed stvari je, da gledamo skozi dnevnik poizvedb v trenutkih, ko se podatki premikajo iz ene tabele v drugo, in to nam omogoča, da postavimo eno najpogostejših vprašanj o tabeli podatkov, od kod je to prišlo? Kako lahko zaupam? In to, kar lahko pokažemo, ni samo iz katerih drugih tabel je prišlo, ampak tudi, kako se je preoblikovalo na poti. Še enkrat, to nekako poganja dnevnik poizvedb.

Tako poskrbimo, da so te stvari nastavljene in so postajale linijske linije v sistem ter ciljale na najbolj dragocene in najbolj podprte dele metapodatkov, ki jih lahko vzpostavimo na straneh tabel, tako da med iskanjem, najdete nekaj koristnega.

Robin Bloor: V redu. Drugo vprašanje - veliko je vprašanj občinstva, zato si tukaj ne želim zavzeti preveč časa - drugo vprašanje, ki mi pride na misel, so samo bolečine. Veliko programske opreme, kupljene zato, ker imajo ljudje tako ali drugače težave z nečim. Kaj je torej boleča točka, ki vodi ljudi v Alation?

David Crawford: Ja. Mislim, da jih je nekaj, vendar menim, da je eden tistih, ki ga slišimo precej pogosto, analitik na krovu. "V kratkem bomo morali zaposliti 10, 20, 30 ljudi, ki bodo morali iz teh podatkov pripraviti nova spoznanja, kako bodo hitro dosegli?" Torej analitik na krovu je nekaj, česar se vsekakor lotimo. Prav tako razrešuje starejše analitike, da ves svoj čas porabijo za odgovore na vprašanja drugih o podatkih. Tudi to je zelo pogosto. In to sta v bistvu težave z izobraževanjem.

In potem bi rekel, da drugi ljudje vidijo, da sprejema Alation, ko želijo postaviti popolnoma novo podatkovno okolje za nekoga, v katerem želijo delati. To želijo interno oglaševati in tržiti, da bi ga ljudje lahko izkoristili. Potem je Alation v tem novem analitičnem okolju zelo privlačen. Dobila je dokumentacijo, eno samo točko uvajanja v - enotno točko dostopa do sistemov in tako je to drugo mesto, kamor bodo ljudje prišli k nam.

Robin Bloor: V redu, te bom poslal k Rebeki, ker se občinstvo trudi priti do tebe.

Rebecca Jozwiak: Da, tu imamo veliko res dobrih vprašanj občinstva. In David, ta je bil posebej zasnovan zate. Je nekdo, ki ima očitno nekaj izkušenj z ljudmi, ki zlorabljajo poizvedbe, in nekako pravi, da več kot opolnomočimo uporabnike, težje je upravljati odgovorno uporabo računskih virov. Ali se lahko branite pred širjenjem napačnih, a pogostih poizvedbenih fraz?

David Crawford: Ja, vidim to vprašanje. To je veliko vprašanje - enega dobimo precej pogosto. Sam sem že videl bolečino v prejšnjih podjetjih, kjer morate usposobiti uporabnike. Na primer, "To je tabela dnevnikov, dnevniki se vračajo dolga leta. Če boste na to mizo napisali poizvedbo, se morate resnično omejiti po datumu. "Tako je na primer to usposabljanje, ki sem ga opravil v prejšnjem podjetju, preden sem dobil dostop do baze podatkov.

Obstaja nekaj načinov, kako poskušati to rešiti. Rekel bi, da menim, da so podatki dnevnika poizvedb resnično dragoceni za njihovo reševanje. To daje še en vpogled glede na to, kaj baza podatkov počne v notranjosti s svojim načrtovalcem poizvedb. In to, kar počnemo, je ena od teh intervencij - imamo ročne posege, ki sem jih pokazal, in to je koristno, kajne? Tako lahko na primer pri določenem združenju rečete: "Naj to opustimo." Ko se prikaže pametno, ima veliko rdečo zastavo. To je en način, kako priti do ljudi.

Druga stvar, ki jo počnemo, je avtomatizirana v času izvedbe intervencij. Thatll dejansko uporabi razčlenjeno drevo poizvedbe, preden ga zaženemo, ali vsebuje določen filter ali nekaj drugih stvari, ki jih počnemo tudi tam. Toda ena najdragocenejših in najpreprostejša za razlago je, ali vsebuje filter? Tako kot ta primer, ki sem ga pravkar navedel, mora ta dnevniška tabela, če jo boste poizvedovati, imeti časovno obdobje, na strani tabele lahko določite, da določite, da se uporabi filter filtra. Če nekdo poskuša izvesti poizvedbo, ki ne vključuje tega filtra, ga bo dejansko zaustavil z velikim opozorilom in rekel: "Verjetno bi morali v svojo poizvedbo dodati nekaj SQL-a, ki je videti tako." . Ne bodo jim v celoti prepovedali njegove uporabe - tudi poizvedba mora na koncu dneva izvajati poizvedbe. Toda pred njimi postavimo precej veliko oviro in jim damo predlog, konkreten uporaben predlog za spremembo poizvedbe za izboljšanje njihove uspešnosti.

To dejansko storimo tudi samodejno v nekaterih primerih, spet z opazovanjem dnevnika poizvedb. Če vidimo, da nekaj res velikega števila poizvedb v tej tabeli izkoristi določen filter ali določeno pridruževalno klavzulo, potem to pravzaprav prikažemo. Pa to spodbujajte k intervenciji. Pravzaprav se mi je zgodilo v notranjem naboru podatkov. Imamo podatke o strankah in uporabniške identifikacijske številke, vendar je ID uporabnika določen, saj je vrsta - pri vsaki stranki imamo ID-je uporabnikov. Ni edinstven, zato ga morate povezati z ID-jem stranke, da dobite edinstven pridružitveni ključ.In sem pisal poizvedbo in poskušal nekaj analizirati in se je pojavilo in rekel: "Hej, zdi se, da se vsi drugi pridružijo tem tabelam tako z ID-jem stranke kot z ID-jem uporabnika. Ali ste prepričani, da tega ne želite storiti? "In to me je pravzaprav ustavilo pri napačni analizi. Torej deluje tako za natančnost analize kot tudi za uspešnost. Tako se lotimo te težave.

Rebecca Jozwiak: To bi se mi zdelo učinkovito. Rekli ste, da ne boste nujno blokirali ljudi, da bi prikupili vire, ampak jih nekako naučite, da to, kar počnejo, morda ni najboljše, kajne?

David Crawford: Vedno domnevamo, da uporabniki niso zlonamerni - dajte jim najboljše namene - in skušamo biti na ta način precej odprti.

Rebecca Jozwiak: V redu. Tu je še eno vprašanje: »Kakšna je razlika med upraviteljem kataloga, kot je vaša rešitev, in orodjem MDM? Ali pa se dejansko zanaša na drugačno načelo s širjenjem izbire poizvedbenih tabel, medtem ko bi MDM to storil samodejno, vendar z isto osnovno nalogo zbiranja metapodatkov. "

David Crawford: Ja, mislim, da je, ko gledam tradicionalne rešitve MDM, glavna razlika filozofska. Vse je o tem, kdo je uporabnik. Nekako tako, kot sem rekel na začetku svoje predstavitve: Alation, mislim, ko smo bili ustanovljeni, smo bili ustanovljeni z namenom omogočiti analitikom, da ustvarijo več vpogleda, hitreje ustvarijo, da bodo bolj natančni v uvidih, ki jih pridelati. Mislim, da to ni bil kdaj cilj tradicionalne rešitve MDM. Te rešitve so ponavadi namenjene ljudem, ki morajo pripravljati poročila o tem, kateri podatki so bili zajeti v PKS ali interno za kakšen drug namen revizije. Včasih lahko omogoči analitikom, vendar je pogosteje, če bo v njihovo delo omogočil praktik, večja verjetnost je, da bo to omogočil arhitektu podatkov, kot je DBA.

Ko razmišljate o stvareh z vidika analitika, takrat začnete graditi orodje za poizvedbe, ki ga orodje MDM nikoli ne bi storilo. To je tisto, ko začneš razmišljati o uspešnosti in natančnosti ter razumeti, kateri podatki se nanašajo na moje poslovne potrebe. Vse te stvari so stvari, ki nam nekako padajo na pamet, ko oblikujemo orodje. Vključuje se v naše algoritme iskanja, gre v postavitev kataloških strani in v zmožnost prispevanja znanja iz vse organizacije. Gre v dejstvo, da smo zgradili orodje za poizvedbe in da smo katalog vgradili neposredno vanj, zato mislim, da iz tega res izvira. Katerega uporabnika imate najprej v mislih?

Rebecca Jozwiak: V redu, dobro. To je res pomagalo razložiti. ki je umrl, da bi dobil arhiv, ker je moral oditi, a si je resnično želel, da bi odgovoril na njegovo vprašanje. Dejal je, da je bilo v začetku omenjeno, da obstaja več jezikov, toda ali je SQL edini jezik, ki se uporablja v komponenti Compose?

David Crawford: Da, to je res. In ena od stvari, ki sem jih opazil, ko sem bil priča eksploziji različnih vrst baz podatkov, baz dokumentov, baz podatkov grafov, ključnih skladišč vrednosti, je, da so resnično močne za razvoj aplikacij. Tam lahko posebne potrebe zadovoljujejo na boljše načine, kot jih lahko omogočajo relacijske baze podatkov.

Ko pa jih vrnete v analizo podatkov, ko jih vrnete nazaj - ko želite te podatke posredovati ljudem, ki bodo delali ad hoc poročanje ali ad hoc kopanje v podatke, se vedno vrnejo v relacijsko povezavo vsaj vmesnik za ljudi. Del tega je samo zato, ker je SQL lingua franca za analizo podatkov, tako da to pomeni za ljudi tudi za orodja, ki se integrirajo. Mislim, da je to razlog, da je SQL na Hadoopu tako priljubljen in da je toliko poskusov, da bi ga rešili, zato, ker na koncu dneva to vedo ljudje. Verjetno je na milijone ljudi, ki vedo, kako napisati SQL, in ne bi si upal milijonov, ki bi znali napisati okvirno poizvedbo o cevovodu po Mongo. In da je to standardni jezik, ki se uporablja za integracijo na zelo široko platformo. Vse, kar govorimo, smo zelo redko prosili, da gre zunaj tega, ker je večina analitikov uporabljena, zato se osredotočamo na pisanje SQL-ja in je to mesto, kamor smo se osredotočili, zlasti v Compose.

Rekel bi, da je podatkovna znanost kraj, kjer se lotijo največ zunaj, zato se občasno zastavljamo vprašanja o uporabi Pig ali SAS. To so stvari, ki jih v Compose zagotovo ne obravnavamo in ki jih želimo zajeti v katalog. Vidim tudi R in Python. Imamo nekaj načinov, s katerimi smo naredili vmesnike, da lahko uporabite poizvedbe, zapisane v Alation, znotraj skript R in Python, tako da so pogosto, ko ste podatkovnik in delate v skriptnem jeziku, vaši izvorni podatki v relaciji baze podatkov. Začnete s poizvedbo SQL in jo nato še obdelate in ustvarite grafe znotraj R in Pythona. Naredili smo pakete, ki jih lahko uvozite v tiste skripte, ki potegnejo poizvedbe ali rezultate poizvedb iz Alation, tako da boste tam lahko imeli mešan potek dela.

Rebecca Jozwiak: Ok, super. Vem, da gremo malo mimo vrha ure, samo še eno ali dve vprašanji bom. Vem, da ste govorili o vseh različnih sistemih, s katerimi se lahko povežete, toda ko gre za podatke, ki gostijo zunanje podatke in podatke, ki jih gostijo, ali jih je mogoče skupaj iskati v enem samem pogledu, na vašo eno platformo?

David Crawford: Seveda. Obstaja nekaj načinov za to. Mislim, zunanji gostitelj, bi si predstavljal, poskušam razmišljati, kaj bi to lahko pomenilo. To bi lahko pomenilo bazo podatkov, ki jo nekdo gosti v AWS. To bi lahko pomenilo javni vir podatkov iz data.gov. Neposredno se povežemo z bazami podatkov, tako da se prijavimo tako kot druga aplikacija z, z računom podatkovnih baz, in tako pridobimo metapodatke. Če imamo račun in imamo odprta omrežna vrata, lahko pridemo do njega. In potem, ko teh stvari nimamo, imamo nekaj, kar imenujemo virtualni vir podatkov, kar vam omogoča, da v bistvu potisnete dokumentacijo, bodisi samodejno, tako da napišete svoj priključek ali ga izpolnite tako, da naredite celo kot prenos CSV, da dokumentirate podatki poleg vaših notranjih podatkov. To se vloži v iskalnik. Postane referenčno v člankih in drugi dokumentaciji ter pogovorih znotraj sistema. Tako ravnamo, ko se ne moremo neposredno povezati s sistemom.

Rebecca Jozwiak: Ok, to je smiselno. Samo še eno vprašanje vam bom ustrelil. En udeleženec je sprašuje: "Kako je treba potrditi, preveriti ali vzdrževati vsebino kataloga podatkov, ko se posodabljajo izvorni podatki, spreminjajo se izvorni podatki itd."

David Crawford: Ja, vprašanje je, ki ga dobimo veliko, in mislim, da ena izmed stvari, ki smo jih - kot sem rekel, ena od naših filozofij, ne verjamemo, da so uporabniki zlonamerni. Predvidevamo, da poskušajo prispevati najboljše znanje. Ne bodo vstopili in namerno zavajali ljudi glede podatkov. Če je težava v vaši organizaciji, morda Alations ni pravo orodje za vas. Če pa uporabniki prevzamete dobre namene, potem o tem razmišljamo kot o nečem, kje pridejo posodobitve, in navadno to, kar počnemo, postavimo upravitelju za vsak podatkovni objekt ali za vsak del podatkov. In te nadzornike lahko obvestimo, ko se spremenijo metapodatki, in lahko na ta način ravnajo. Opazijo, da prihajajo posodobitve in jih potrdijo. Če nimajo prav, jih lahko vrnejo in spremenijo ter obvestijo in upajo celo na uporabnika, ki je prispeval informacije in jim pomagajo pri učenju.

To je primarni način, kako razmišljamo o tem. Tovrstni predlogi množice in vodstva s strani upravnikov, zato imamo okoli tega nekaj zmogljivosti.

Rebecca Jozwiak: Vredu dobro. In če bi ljudem lahko le sporočili, kako lahko najbolje začnejo z Alationom, in kam bi lahko šli posebej, da bi dobili več informacij. Vem, da si delil en bit.ly. Je to najboljše mesto?

David Crawford: Alation.com/learnmore Mislim, da je to odličen način. Če se želite prijaviti na demo, ima spletna stran Alation.com veliko odličnih virov, belih dokumentov in novic o naši rešitvi. Zato mislim, da je to odličen kraj za začetek. Lahko tudi .

Rebecca Jozwiak: Ok, super. Vem, udeleženci, žal mi je, če danes nisem dobil vseh vprašanj, če pa ne, jih bodo poslali Davidu ali njegovi prodajni ekipi ali nekomu v podjetju Alation, tako da zagotovo lahko pomagajo odgovoriti na vaša vprašanja in pomagajo razumeti, kaj Alation ali kaj najbolje počnejo.

In s tem, ljudje, bom šel naprej in nas odjavil. Arhiv lahko vedno najdete na strani InsideAnalysis.com. Najdete ga tudi na Techopedia.com. Ponavadi se posodabljajo nekoliko hitreje, zato to vsekakor preverite. In najlepša hvala Davidu Crawfordu, Dezu Blanchfieldu in Robinu Booru danes. Odlična spletna oddaja. In s tem sem se poslovil. Hvala, ljudje. Adijo.

David Crawford: Hvala vam.