Zakaj je iskra prihodnja velika platforma podatkov

Vsebina

Kaj je Apache iskrica?
Zakaj je iskrica tako pomembna v Hadoopu
Kaj so iskrice edinstvene lastnosti?
Zakaj iskra ni zamenjava za Hadoop
Kaj podjetja mislijo o Iskri in Hadoopu
Praktične izvedbe
Zaključek

Vir: Snake3d / Dreamstime.com

Odvzem:

Apache Spark je odprtokodno orodje za obdelavo velikih podatkov, ki se plazi na (in na nek način presega) Hadoop.

Apache Hadoop je že dolgo temelj za velike aplikacije za prenos podatkov in velja za osnovno podatkovno platformo za vse ponudbe, povezane z velikimi podatki. Vendar pa baza podatkov in računalništvo v pomnilniku pridobiva vse večjo priljubljenost zaradi hitrejšega delovanja in hitrih rezultatov. Apache Spark je nov okvir, ki uporablja zmogljivosti v pomnilniku za hitro obdelavo (skoraj 100-krat hitreje kot Hadoop). Torej se izdelek Spark vse pogosteje uporablja v svetu velikih podatkov in predvsem za hitrejšo obdelavo.

Kaj je Apache iskrica?

Apache Spark je odprtokodni okvir za obdelavo ogromnih količin podatkov (velikih podatkov) s hitrostjo in preprostostjo. Primeren je za analitične aplikacije, ki temeljijo na velikih podatkih. Iskrico lahko uporabljate v okolju Hadoop, samostojno ali v oblaku. Razvili so ga na kalifornijski univerzi in nato pozneje ponudili programski fundaciji Apache. Tako spada v odprtokodno skupnost in je lahko zelo stroškovno učinkovit, kar ljubiteljskim razvijalcem omogoča tudi enostavno delo. (Če želite izvedeti več o odprtokodni kodi Hadoops, glejte Kaj je vpliv odprtokodnih virov na ekosistem Apache Hadoop?)

Glavni namen Spark je, da razvijalcem ponuja aplikacijski okvir, ki deluje okrog osredotočene strukture podatkov. Spark je tudi izjemno močan in ima prirojeno sposobnost, da v kratkem času hitro obdeluje ogromno količino podatkov in tako nudi izjemno dobre zmogljivosti.Zaradi tega je veliko hitrejši od tega, kar naj bi bil njegov najbližji konkurent Hadoop.

Zakaj je iskrica tako pomembna v Hadoopu

Apache Spark je že od nekdaj znan, da je Hadoop v več funkcijah prinesel, kar verjetno pojasnjuje, zakaj ostaja tako pomemben. Eden glavnih razlogov za to je upoštevanje hitrosti obdelave. V bistvu, kot že omenjeno, Spark ponuja približno 100-krat hitrejšo obdelavo od Hadoopove MapReduce za isto količino podatkov. Prav tako porabi bistveno manj virov v primerjavi s Hadoopom, s čimer je stroškovno učinkovit.

Drugi ključni vidik, pri katerem ima Spark prednost, je združljivost z upraviteljem virov. Znano je, da Apache Spark deluje s Hadoopom, tako kot MapReduce, vendar je ta trenutno združljiv samo s Hadoopom. Kar zadeva Apache Spark, pa lahko sodeluje z drugimi upravljavci virov, kot sta YARN ali Mesos. Podatki znanstveniki to pogosto navajajo kot eno največjih področij, kjer Spark resnično prekaša Hadoop.

Ko gre za enostavnejšo uporabo, je Spark spet precej boljši od Hadoopa. Spark ima API-je za več jezikov, kot so Scala, Java in Python, poleg tega pa ima všeč tudi Spark SQL. Primerno preprosto je pisanje uporabniško definiranih funkcij. Zgodi se tudi, da se ponašajo z interaktivnim načinom izvajanja ukazov. Hadoop je na drugi strani napisan v Javi in si je pridobil sloves, da ga je težko programirati, čeprav ima orodja, ki pomagajo pri postopku. (Če želite izvedeti več o iskrenju, glejte, kako Apache Spark pomaga hitremu razvoju aplikacij.)

Kaj so iskrice edinstvene lastnosti?

Apache Spark ima nekaj edinstvenih lastnosti, ki ga resnično ločijo od številnih konkurentov pri poslu obdelave podatkov. Nekatere od teh smo na kratko opisali spodaj.

Ne morete izboljšati svojih programskih veščin, kadar nikogar ne skrbi za kakovost programske opreme.

Spark ima tudi prirojeno sposobnost nalaganja potrebnih informacij v svoje jedro s pomočjo svojih algoritmov strojnega učenja. To omogoča izjemno hitro.

Apache Spark ima možnost obdelave grafov ali celo informacij, ki so grafične narave, kar omogoča enostavno analizo z veliko natančnostjo.

Apache Spark ima MLib, ki je okvir za strukturirano strojno učenje. Prav tako je pretežno hitrejši pri izvajanju kot Hadoop. MLib je sposoben rešiti tudi več težav, kot so statistično odčitavanje, vzorčenje podatkov in preskušanje premis.

Zakaj iskra ni zamenjava za Hadoop

Kljub dejstvu, da ima Spark več vidikov, ko trka Hadoop z roko navzdol, še vedno obstaja več razlogov, zakaj Hadoopa še ne more nadomestiti.

Najprej Hadoop preprosto ponuja večji nabor orodij v primerjavi s Spark. Ima tudi več praks, ki so priznane v panogi. Apache Spark pa je še vedno dokaj mlad v domeni in bo potreboval nekaj časa, da se lahko ujema s Hadoopom.

Hadoop's MapReduce je določil tudi določene industrijske standarde, ko gre za izvajanje celovitih operacij. Po drugi strani še vedno velja, da Spark še ni povsem pripravljen na delovanje s popolno zanesljivostjo. Pogosto ga morajo organizacije, ki uporabljajo Spark, natančno prilagoditi, da bodo pripravljene na svoje potrebe.

Hadoop’s MapReduce, ki je že dalj časa kot Spark, je tudi lažje konfigurirati. Spark ne drži, če ponuja popolnoma novo platformo, ki še ni preizkusila grobih popravkov.

Kaj podjetja mislijo o Iskri in Hadoopu

Mnoga podjetja so že začela uporabljati Spark za potrebe obdelave podatkov, a zgodba se tu še ne konča. Zagotovo ima več močnih vidikov, zaradi katerih je neverjetna platforma za obdelavo podatkov. Vendar pa gre tudi za pravičen delež pomanjkljivosti, ki jih je treba odpraviti.

Industrijska ideja je, da je Apache Spark tu, da ostane in je morda celo prihodnost za potrebe obdelave podatkov. Vendar pa je treba še veliko opraviti pri razvoju in poliranju, ki ji bo omogočilo, da resnično izkoristi svoj potencial.

Praktične izvedbe

Apache Spark je bila in še vedno zaposlujejo številna podjetja, ki ustrezajo njihovim zahtevam za obdelavo podatkov. Eno najuspešnejših izvedb je izvedel Shopify, ki je želel izbrati primerne trgovine za poslovno sodelovanje. Vendar je njeno skladišče podatkov nadaljevalo s časom, ko je želel razumeti izdelke, ki jih prodajajo kupci. Podjetje je s pomočjo Sparka uspelo obdelati več milijonov zapisov podatkov in nato v nekaj minutah obdelati 67 milijonov zapisov. Prav tako je določil, katere trgovine so upravičene.

Z uporabo Spark lahko Pinterest prepoznava trende v razvoju in jih nato uporabi za razumevanje vedenja uporabnikov. To nadalje omogoča boljšo vrednost v skupnosti Pinterest. Spark uporablja tudi TripAdvisor, eno največjih svetovnih informacij o potovanjih, da pospeši svoja priporočila za obiskovalce.

Zaključek

Ne moremo dvomiti o sposobnosti Apache Spark, niti trenutno in edinstvenem naboru funkcij, ki jih prinaša na mizo. Njegova procesorska moč in hitrost ter združljivost določata več stvari, ki bodo v prihodnosti. Vendar pa ima tudi več področij, ki jih mora izboljšati, če želi resnično uresničiti svoj polni potencial. Medtem ko je Hadoop trenutno še vedno prisoten, je Apache Spark pred nami svetla prihodnost in mnogi ga ocenjujejo kot prihodnjo platformo za potrebe obdelave podatkov.