5 ključnih področij, kjer veliki podatki močno vplivajo

Avtor: Eugene Taylor
Datum Ustvarjanja: 9 Avgust 2021
Datum Posodobitve: 22 Junij 2024
Anonim
A Brief History of Big Data - David Ostrovsky
Video.: A Brief History of Big Data - David Ostrovsky

Vsebina


Vir: Nmedia /Dreamstime.com

Odvzem:

Podatki o velikih podatkih so povsod velik posel, nekaj specifičnih področij pa to tehnologijo najbolj izkorišča.

Ko sem začel s tem člankom, sem načrtoval seznam različnih vrst velikih podatkovnih platform. Toda po treh dneh poskusa, da bi vse različne ponudbe velikih podatkov - relacijske v primerjavi z nerelacijskimi, SQL proti NoSQL in baze podatkov v primerjavi z okvirom - spremenil v nekaj podobnega reda, sem se odločil, da se temu neredu izognem.

Če bom dodal žalitev za škodo, sem upal, da bom v svoj članek predstavil osebo, ki je skovala izraz "veliki podatki". Ampak tega sploh ne morem storiti. Ni dogovorjenega odgovora. Pravzaprav obstaja celovit raziskovalni projekt, ki proučuje, kdo je prvotno prišel do velikih podatkov. Namesto tega si bom ogledal nekaj ključnih načinov uporabe velikih podatkov. To je veliko bolj pomembno. In je bolj zanimiva in presenetljiva, kot si morda mislite.


Kako se je zgodilo

Analitiki, ki uporabljajo tradicionalno rudarjenje podatkov, že leta manipulirajo s podatki. Ti isti analitiki se zdaj težko spopadajo s količino in raznolikostjo podatkov, ki jih shranjujejo podjetja, zasebne organizacije in vladne agencije.

Vnesite velike podatke, naslednji evolucijski korak pri pridobivanju podatkov. Veliki podatki so bili zasnovani za obdelavo ogromnih baz podatkov in nešteto vrst podatkov, ki se ustvarjajo v današnjem digitalnem svetu. Če "množično" razmišljate o Googlu in vseh podatkih, ki jih zbira, bi bili na pravem mestu. Kar vas lahko preseneti je, da je Google šele četrti na seznamu najboljših desetih največjih baz podatkov na svetu. Od januarja 2014 je Svetovni podatkovni center za podnebje na vrhu seznama z 220 terabajti podatkov in kdo že ugiba glede velikosti baz podatkov, ki jih nadzorujejo nekatere vladne agencije.

Seveda so se veliki podatki odstranili, ker omogočajo manipulacijo z ogromnimi količinami različnih podatkov in odkrivanje neverjetnih - in neverjetno podrobnih in osebnih - stvari. John Sumser, analitik za človeško industrijo, ponuja naslednji primer:


"Danes ustvarjamo hipoteze in zbiramo podatke. Jutri bomo delali obratno. Nenehno in stalno kopičenje podatkov nam bo omogočilo ogled podatkov, preden oblikujemo vprašanja. To pomeni, da bomo dobili odgovore na vprašanja, ki jih nismo storili." ne vem vprašati. Premišljevali bomo cel kup stvari, za katere domnevamo, da so dejstva. "

Seveda smo vsi slišali o nekaterih grozljivih načinih uporabe teh podatkov, kot je na primer sposobnost Targets zaznati nosečnost mlade ženske, še preden njena družina sploh ugotovi. Toda veliki podatki se uporabljajo tudi za veliko manj zloveške vzroke. Tu je nekaj organizacij, ki to najbolj izkoriščajo:

Ne morete izboljšati svojih programskih veščin, kadar nikogar ne skrbi za kakovost programske opreme.

Eno očitno veliko podatkov bo pomagalo pri varnem in natančnem ravnanju z elektronskimi zdravstvenimi kartotekami v zdravstvenih organizacijah. Natančna evidenca bo bolnikom zagotavljala boljše storitve in zmanjšala napake. Področje zdravstvenega varstva iz očitnih razlogov počasneje prilagaja velike podatke, da bi bilo v skladu z vladnimi predpisi glede zaupnosti pacientov.

Kot smo že omenili, so znani veliki podatki, ki ponujajo odgovore na neodgovorena vprašanja. Na področju zdravstva bi to lahko pomenilo iskanje novega zdravila ali zdravljenja, ki ga drugače ne bi našli. Po mnenju McKinsey & Company bi lahko veliki podatki v ne tako oddaljeni prihodnosti omogočili naslednje:

  • Predvidevno modeliranje bioloških procesov in zdravil postaja bolj izpopolnjeno in razširjeno.
  • Bolniki so identificirani, da se vpišejo v klinična preskušanja na podlagi več virov informacij, na primer družbenih medijev.
  • Preskusi se spremljajo v realnem času, da se hitro ugotovijo varnostna ali operativna vprašanja.
  • Namesto togih silosov podatkov, ki jih je težko izkoristiti, se podatki zajamejo v elektronski obliki in zlahka tečejo med različnimi enotami.

Veliki podatki, velika priložnost

Medtem ko se na nekaterih specifičnih področjih uporabljajo veliki podatki, ponuja priložnost vsem organizacijam na naslednjih področjih:

Podatki beležijo tako rekoč vse računalniške in omrežne naprave. Količina zabeleženih podatkov hitro postane grozeča. Z velikimi podatki lahko enostavno upravljate s to količino podatkov, kar skrbnikom omogoča, da spremljajo omrežno aktivnost, diagnosticirajo težave ali na primeru, ki mi ga je predlagal Rubin, iščejo določene vzorce omrežnega prometa, ki bi kazali na dejavnost zlonamerne programske opreme.

Če berete ta članek, je precej varna stava, da ste seznanjeni s težavo Heartbleed v zvezi z OpenSSL. Poleg tehnične težave obstaja tudi skrb, da ranljivost obstaja že več let. Rubin je omenil, da veliki podatki omogočajo skrbnikom omrežij, ki delajo z analitiki podatkov, da ustvarijo program, ki bo po vseh omrežnih dnevnikih preiskal zlonamerne srčne utripe. Ta objava EFF omenja:

"Vsi operaterji omrežja, ki imajo obsežne dnevnike paketov, lahko preverijo, ali obstajajo zlonamerni srčni utripi, ki imajo največjo koristnost TCP 18 03 02 00 03 01 ali 18 03 01 00 03 01 (ali morda celo 18 03 03 00 03 01)."

Naslednji primer je vzorčni izhod iz ukaza show audit:

Router # show audit

* 14. september 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Uporabnik:

* 14. september 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Uporabnik:

* 14. september 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Uporabnik:

* 14. september 18: 37: 32.107:% AUDIT-1-FILESISTEM: Hash:

330E7111F2B526F0B850C24ED5774EDE Uporabnik:

* 14. september 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Uporabnik:


Če sledite časovnim žigom, je bil časovni interval za vse te vnose krajši od ene sekunde. Tega ne bi hotel niti ekstrapolirati za en dan, kaj šele dve leti!

Nekaj ​​na ogled

Če preverjate oglase za delo, je velika potreba po strokovnjakih za velike podatke. O tem sem vprašal Rubina. S tem se je strinjal in omenil, da so bili njegovi študenti navdušeni nad njihovimi obeti. Nato sem spoznal, da velike podatkovne platforme, zlasti tiste, ki veljajo za odprtokodne, sledijo časovnici, ki je zelo podobna načinu, kako je Linux postal mainstream.

Univerze sprejemajo odprtokodne različice platform z velikimi podatki, zlasti Hadoop, ker so brezplačne in študenti lahko manipulirajo z izvorno kodo. Tako bodo diplomanti, ki izpolnijo vsa ta delovna mesta, raje delali z odprtokodnimi platformami, saj je tisto, kar najbolje znajo. Zanimivo bo gledati.