Ko SQL ni dovolj: krmili za množične nove podatkovne centre

Vsebina

Google datotečni sistem: velika študija primera
Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje
Pogled na osnovno tehnologijo
Kako drugi veliki sistemi to dosežejo?
Vzdrževanje DFS

Odvzem:

Razvijalci in inženirji si morajo nenehno prizadevati za pospeševanje in izboljšanje storitev na platformah, ki so presegle svoje klasične arhetipe iz devetdesetih let.

Ob vsej glasnosti o ogromnih podatkovnih centrih NSA, ki imajo gazijone podatkovnih bitov o našem zasebnem življenju, obstaja ena stvar, o kateri se o CNN ni veliko govorilo, vsaj. Vključuje inženirski problem, ki se je pojavil skupaj z oblačno tehnologijo, velikimi podatki in impresivnimi fizičnimi centri za shranjevanje podatkov, ki se zdaj gradijo po vsem svetu. Kaj je torej? No, ne glede na to, kdo upravlja enega od mamutskih IT sistemov, ki vodi te objekte, obstajajo potrebe po programskih sistemih, ki pomagajo vsem tem podatkom hitro vstopati in iz njih. Ta potreba predstavlja eno najzanimivejših IT vprašanj ali ugank, s katerimi se danes srečujejo strokovnjaki.

Kot poudarjajo številni strokovnjaki, današnje izjemno povpraševanje po obdelavi podatkov presega tradicionalne pristope. Preprosto povedano, z uporabo preprostih struktur baz podatkov in orodij, kot je poizvedovalni vmesnik SQL, ne bo zagotovljena dovolj procesne moči ali funkcionalnosti za všečke lastniških sistemov, ki so se razvili v zadnjih nekaj letih. Arhivi današnjih velikih tehnoloških podjetij potrebujejo izjemno razširljivo tehnologijo. Potrebujejo orodja za obdelavo podatkov, ki lahko vnesejo in izpeljejo rezultate v veliko večji količini, kot to lahko olajša posamezen strežnik. Potrebujejo rešitve, ki jih je mogoče hitro povečati za rast, rešitve, ki vključujejo zapletene ravni umetne inteligence, in rešitve, ki so zasnovane za enostavno upravljanje s strani IT oddelka.

Vprašanje je, kako podjetja in vladne agencije osvojijo omejitve tradicionalne poti ravnanja s podatki? Tukaj si oglejte eno zelo obetavno možnost: Programska oprema za upravljanje velikih podatkov in upravljanje več podatkovnih centrov.

Google datotečni sistem: velika študija primera

Lastniška tehnologija, ki jo Google uporablja za dostop do svojih podatkovnih centrov, je eden najboljših primerov pogostih modelov za obdelavo velikih podatkov in več administracij podatkovnih centrov. Googlov datotečni sistem (GFS), razvit leta 2003, je zasnovan tako, da podpira ogromno število hitrih sprememb podatkovnih sistemov, ki so del tako veliko novih informacij na eni sami platformi in jih milijoni uporabnikov kliknejo na istočasno. Strokovnjaki omenjajo to kot porazdeljeni datotečni sistem in za opis teh zelo zapletenih tehnik uporabljajo izraz "shranjevanje podatkovnih objektov". V resnici pa ti izrazi sploh ne opraskajo površin, če opisujejo, kaj deluje.

Funkcije in komponente, ki sestavljajo sistem, kot je GFS, posamezno morda ne bodo več revolucionarne, vendar so zapletene. Številne od njih so na tem spletnem mestu zajete kot relativno nove inovacije, ki so del temeljev za nov, vedno vklopljen, vedno povezan globalni informacijski sistem. Kolektivno je sistem, kot je GFS, veliko več kot seštevek njegovih delov: to je v glavnem nevidna, a zelo zapletena mreža, ki se prepušča posameznim podatkovnim delom in da bi bil postopek, ki bi bil vizualno popolnoma modeliran, videti kot kaos. Razumevanje kam gre za vse podatke zahteva veliko energije in zavzetosti, saj bodo tisti, ki sedijo na bojnih postajah teh sistemov, takoj priznali.

"Preveč je podrobnosti, ki močno vplivajo na področja uporabnosti - vključno z zunanjo in notranjo fragmentacijo, posodobitvami, ki temeljijo na dnevniku in na kraju samem, in stopnjo doslednosti transakcij - da bi povzeli način delovanja v enem samem sočasnem stavku , "pravi Momchil Michailov, izvršni direktor in soustanovitelj podjetja Sanbolic.

"Razdeljeni datotečni sistem je bodisi porazdeljeni agregator krajevnih imen in prostih prostorov sodelujočih vozlišč, ali lokalni datotečni sistem, ki deluje na več vozlišč, ki dostopajo do skupne shrambe s pomočjo distribuirane komponente upravitelja zaklepanja," je dejal.

Kerry Lebel je višji vodja izdelkov v podjetju Automic, ki je znano po svojih razširljivih platformah za avtomatizacijo. Lebel pravi, da čeprav je natančno opisati DFS kot sistem, ki preprosto dodeli delovne obremenitve strežnikom, pritrjenim na poceni strojne strojne opreme, to v resnici ne pove celotne zgodbe.

Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje

Ne morete izboljšati svojih programskih veščin, kadar nikogar ne skrbi za kakovost programske opreme.

"To, kar na koncu manjkate, je kul dejavnik kako delajo, kar počnejo, "je dejala Lebel.

Ko se oddaljite od tehničnih podrobnosti in samo pomislite na osnovno idejo za porazdeljeni datotečni sistem, je viden "kul faktor", o katerem govori Lebel. Ti sistemi za obdelavo velikih podatkov nadomeščajo stare sisteme datotek / map s strukturami, ki vključujejo ne le več sistemov za dostavo, temveč "objektno orientiran" pristop, kjer se tu in tam zvrsti veliko enot, da se prepreči ozka grla.

Pomislite na primer o najsodobnejšem avtocestnem sistemu, kjer na stotine tisoč avtomobilov ni le speljanih po večplastnem naravnost, ampak se je zarezal v čedne majhne pritličje deteljice ali oksatov, ki se vrtijo okoli in pošiljajo proti njihovim destinacijam na različnih obvojih. Z neba je vse videti tako koreografsko kot švicarska ura. Takšen je vizualni model, na katerega inženirji gledajo, ko sanjajo o novih načinih, kako informacije usmeriti okoli omejitev, tako da jih "brcajo" na različne ravni večplastne sheme za shranjevanje podatkov. Če pustimo ob strani karakteristike, je to cilj najvišje ravni upravljalnega sistema: ohraniti tiste samostoječe predmete z vgrajenimi metapodatki, ki se premikajo z največjo hitrostjo tja, kjer morajo biti, doseči cilje skladnosti, zadovoljiti končnega uporabnika ali celo za obveščanje o opazovanju ali analizi na najvišji ravni.

Pogled na osnovno tehnologijo

Članek Seana Gallagherja, ki se je pojavil na Ars Technica, razdeli GFS-ov dizajn na nekoliko bolj obvladljive dele in namiguje, kaj se nahaja pod listom pri Googlu.

GFS se začne z redundantnim in napakam, odpornim na branje in zapisovanje podatkov. Ideja je ta, da novi sistemi namesto da napišejo določeno posodobitev na en pogon, napišejo koščke podatkov na več destinacij. Tako bo, če en napis ne uspe, ostali drugi. Da bi to lahko prilagodili, ena primarna komponenta omrežja obdela obdelavo podatkov z drugimi podrejenimi enotami in ponovno združi podatke, ko jih stranka "pokliče". Vse to omogoča protokol metapodatkov, ki pomaga ugotoviti, kje so nekatere posodobitve in rezultati prenosa znotraj večjega sistema.

Drugi zelo pomemben vidik tega je, kako ti podvojeni sistemi uveljavljajo skladnost podatkov. Kot ugotavlja Gallagher, zasnova GFS žrtvi nekaj doslednosti, vendar še vedno "uveljavlja atomskost" ali varuje načelo, kako se podatki posodabljajo v več shranjevalnih enotah, da se sčasoma ujemajo. Zdi se, da Googlov "model sproščene doslednosti" sledi bistveni teoriji modela BASE, ki zagotavlja večjo prožnost v zameno za daljši časovni okvir za uveljavitev doslednosti.

Kako drugi veliki sistemi to dosežejo?

"Ko dosežemo dovolj velik obseg, postanejo nedoslednosti ali poškodbe podatkov neizogibne," pravi Mihailova. "Zato bi moral biti primarni cilj porazdeljenih datotečnih sistemov zmožnost izvajanja čim večjega števila operacij ob prisotnosti korupcije, hkrati pa zagotavljanje učinkovitih načinov za sočasno obravnavanje korupcije." Mihailov omenja tudi potrebo po ohranitvi uspešnosti s skrbnim izvajanjem odpuščanja.

"Na primer, ustvarjanje metapodatkov (podatkov o podatkih) na vsakem disku omogoča, da ta disk obnovi svojo pravilno podatkovno strukturo, če je zrcalna kopija poškodovana," je dejal Michailov. "Poleg tega se ravni RAID lahko uporabljajo za boj proti okvaram pomnilnika bodisi bodisi v zbirniku datotečnega sistema ali v skupni rabi upravitelja glasnosti."

V razpravi o drugem modelu skladnosti se Lebel osredotoča na sistem, imenovan Hadoop porazdeljeni datotečni sistem (HDFS), ki ga imenuje "industrijski dejanski standard".

V HDFS, pravi Lebel, se vsak podatkovni blok trikrat presnovi na različna vozlišča in na dva različna stojala. Podatki se preverjajo od konca do konca. Neuspehi se poročajo o NameNode, upravljavcu podatkov, ki se znebi poškodovanih blokov in ustvari nove.

Vse to podpira vrste "čistih podatkov", ki so tako pomembne za celovitost enega od teh množičnih podatkovnih sistemov.

Vzdrževanje DFS

Drug zelo drugačen pogled na GFS izvira iz članka o žičnem pisatelju Stevena Levyja iz oktobra 2012. Pri določitvi programskega pristopa za Googlovo skupno upravljanje od zgoraj navzdol je veliko lažje.

"Z leti," piše Levy, "je Google zgradil tudi programski sistem, ki mu omogoča, da upravlja s svojimi neštetimi strežniki, kot da gre za eno velikansko entiteto. Njeni lastni razvijalci se lahko obnašajo kot lutkovni mojstri in pošiljajo na tisoče računalnikov naloge tako enostavno kot zagon enega stroja. "

To vključuje tudi množico kibernetskega in okoljskega vzdrževanja, od namenskih testnih skupin, ki poskušajo "prebiti" strežniške sisteme, do skrbno nadzorovanih temperatur po dvoranah podatkovne kriptovalute.

Levy omenja tudi dodatne tehnologije za GFS, na primer MapReduce, orodje za uporabo v oblaku in Hadoop, analitični mehanizem, ki z GFS deli nekatera načela oblikovanja. Ta orodja vplivajo na oblikovanje sistemov za obdelavo velikih podatkovnih centrov in na to, kaj se bo verjetno pojavilo v prihodnosti. (Več o teh tehnologijah v Evoluciji velikih podatkov.)

Michailov verjame, da ima MapReduce potencial za podporo vedno večjim sistemom podatkovnih centrov, in govori o "enotni izvedbi" skupnih in združenih datotečnih sistemov, ki bi lahko "shranila imena vozlišč združenega datotečnega sistema v skupni grozdi s SSD diski za shranjevanje . "

Lebel vidi odmik od paketne obdelave (metoda, ki jo podpira Hadoop), do pretočne obdelave, kar bo te podatkovne operacije približalo sprotnemu času.

"Hitreje bomo lahko obdelali podatke in jih dali na voljo nosilcem poslovnih odločitev ali našim strankam, večja bo konkurenčna prednost," pravi Lebel, ki tudi predlaga, da nadomestite zgornjo terminologijo obdelave s pojmi, ki se osredotočajo na končni uporabnik. Z razmišljanjem o "sinhronih" dejavnostih ali dejavnostih, sinhroniziranih z dejanji končnih uporabnikov, in "asinhronih" dejavnostih, ki so glede izvajanja bolj prilagodljive, Lebel pravi, da lahko podjetja uporabljajo SLA in druge vire, da določijo, kako bo določen sistem storitev deloval .

Vse to na nek način pomeni, da morajo razvijalci in inženirji nenehno delovati, da pospešijo in izboljšajo storitve na platformah, ki so presegle svoje klasične arhetipe iz devetdesetih let. To pomeni kritično preučevanje strojev podatkov in prebijanje ozkih grl na načine, ki podpirajo ne samo naraščajočo populacijo, ampak tudi eksponentne spremembe, ki se dogajajo s hitrostjo zloma vratu, ki jo strokovnjaki imenujejo "naslednja industrijska revolucija." Verjetno bodo tisti, ki se bodo najbolj odrezali na teh frontah, prevladovali na trgih in gospodarstvih prihodnosti.