Zakaj je Hadoop odlična tekma za sekvenciranje genomov

Vsebina

Sedanjost in prihodnost genomike
Potrebe industrije za določanje genomov
Kaj se pričakuje v rešitvi?
Zakaj je Hadoop najboljša rešitev za sekvenciranje genomov
Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje
Kaj še lahko naredi Hadoop?
Priložnosti za Hadoop
Samostrel: Platforma za upravljanje podatkov naslednje generacije
Druga programska oprema Genomics, ki temelji na Hadoopu
Zaključek

Vir: A3701027 / Dreamstime.com

Odvzem:

Za zaporedje genomov so potrebna močna tehnološka orodja za obdelavo vseh njegovih podatkov in Hadoop je kos tej nalogi.

Klinična genomika je zanimiva tema, kjer ljudje delajo na vrhunskih tehnologijah za obdelavo hitrih in natančnih rezultatov. Na trgu je na voljo veliko sekvenčnih genomov, ki proizvajajo petabajte podatkov o sekvencah, rast sekvenciranja pa bo v bližnji prihodnosti ustvarila podatke iz eksebajta. Tu je Hadoop odlična platforma za obdelavo kompleksnega genomičnega delovnega toka. Hadoop lahko shranjuje in razvršča ogromne količine informacij in lahko tudi smiselno analizira. (Če želite razumeti, koliko podatkov dejansko vključuje, preberite Razumevanje bitov, bajtov in njihovih večkratnikov.)

Sedanjost in prihodnost genomike

Danes je kartiranje genoma doseglo vrhunec. Veliko ljudi, povezanih z genomično industrijo, buri radovednost, in ker se predstavljajo nove priložnosti, je potreba po uri boljša tehnologija. Sekvenciranje genomov je zelo ponavljajoča se naloga, ki zahteva veliko virov. Samo v letu 2013 je bilo izdelanih približno 15 petabajtov podatkov in le 2.000 sekvenčnikov. Ta količina, ki je spustila čeljust, je vsebovala 300 KB sekvenčnih podatkov o človeškem genomu. Pri tej hitrosti pridobivanja podatkov je mogoče oceniti, da bo do leta 2018 proizvedeno približno en izvleček podatkov. To bo posledica rasti sekvencerjev, ki bodo ustvarili vse več podatkov na en potek. Drug razlog je pojav izjemno močnih in poceni strojev za določanje genomov. Od leta 2008 se cena teh strojev nenehno znižuje. Razlog za to so zmogljivi stroji naslednje generacije, ki so prišli na trg.

Potrebe industrije za določanje genomov

Zapleteni algoritmi se uporabljajo za obdelavo podatkov, ki se zbirajo iz človeškega genoma. Nato je treba te podatke shraniti. V prihodnosti ga bo mogoče pregledati zaradi primerjave s prvotnimi podatki. Naloga obdelave in shranjevanja 100 GB podatkov ni pretežka, še posebej, če to počnete z zmogljivimi stroji, ki so zaposleni v centrih za zaporedje. Študije kažejo, da je mogoče to količino podatkov obdelati v približno približno 1.000 CPU urah, zato je zelo enostavno. Pri tej stopnji tehničnega napredka je očitno, da bo industrija genom v nekaj sekundah predelala na tisoče gigabajtov.

Vendar se tehnike upravljanja in shranjevanja podatkov ne razvijajo tako hitro, zaradi česar lahko pričakujemo veliko izgubo dragocenih podatkov. To je res nezaželeno, saj bo resno oviralo napredek v človeški genomiki. Torej je potreba po učinkoviti tehniki upravljanja podatkov, ki jo je mogoče enostavno posodobiti, zelo velika. To je lahko učinkovito zlasti v bližnji prihodnosti, kjer se bo kartiranje genoma preselilo iz velikih laboratorijev z zmogljivimi računalniki v majhne bolnišnice in laboratorije.

Kaj se pričakuje v rešitvi?

Hitrost odkrivanja in razvoja novih tehnik sekvenciranja genov je izredno visoka. Ta tempo je lahko zelo koristen za medicinsko znanost v obliki močnega koraka k izkoreninjenju večjih bolezni. Vendar je tudi ta tempo lahko zelo zahteven.

Izziv se pojavlja v obliki upravljanja velike količine podatkov, pridobljenih s projekti zaporedja. Torej je potrebna učinkovita rešitev, ki bo pomagala pri shranjevanju in obdelavi velikih podatkov. Ta rešitev mora biti poceni in hitra, hkrati pa tudi prilagodljiva. Analiza, ki jo ponuja ta rešitev, mora biti tudi natančna in konstantna. Kakšna je torej rešitev problema? Nedvomno gre za Hadoop. (Če želite več informacij o uporabi Hadoopa, glejte 5 Vpogled v velike podatke (Hadoop) kot storitev.)

Zakaj je Hadoop najboljša rešitev za sekvenciranje genomov

To, kar potrebuje industrija genomike, je vrhunska rešitev, ki jim lahko pomaga učinkovito upravljati podatke, jih obdelovati in shraniti za nadaljnjo uporabo. Zdi se, da se ta rešitev odlično ujema s programsko opremo Hadoop. Tako lahko Hadoop štejemo za popolno programsko opremo za upravljanje velikih podatkov, ki lahko močno izboljša trenutne tehnike shranjevanja podatkov genomične industrije.

Hadoopove zmogljivosti v realnem času omogočajo, da sekvence za genom analizirajo in shranijo velike količine podatkov hkrati v realnem času. To omogoča tudi prihodnjo uporabo podatkov. Hadoop lahko premaga številne stare sisteme, saj je veliko hitrejši in zanesljivejši od njih.

Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje

Ne morete izboljšati svojih programskih veščin, kadar nikogar ne skrbi za kakovost programske opreme.

Kaj še lahko naredi Hadoop?

Zaradi Hadoopa se je na področju genomike in zaporedja genov odprlo veliko možnosti in priložnosti. Hadoop ponuja vzporedne možnosti računalništva, zaradi katerih je mogoče hitrejše zaporedje. Tudi s funkcijo MapReduce Hadoop je mogoče zelo enostavno preslikati veliko genov. Zaradi tega bo sekvenciranje s Hadoopom resnično postalo "next-gen" in bo veliko manj zapleteno.

Priložnosti za Hadoop

Hadoop ima v genomski industriji več priložnosti, toda najboljša je izšla iz članka Lynde Chin v članku "Razumevanje genomskih podatkov o raku" v reviji Genes & Development. V tem članku razpravlja o tem, kako je sodobna genomika odprla nova vrata in to je privedlo do številnih pozitivnih rezultatov, kot je odkrivanje genomskih informacij o raku. Zaradi tega smo bližje odkrivanju samega zdravljenja raka. Vendar pa je za to potrebno malo več pozornosti in močna aplikacija za upravljanje podatkov za boljšo raziskovalno sposobnost na tem področju. To je lahko najboljša priložnost za Hadoop, da dokaže svojo hitrost, moč in natančnost.

Samostrel: Platforma za upravljanje podatkov naslednje generacije

Samostrel, ki je programski program, namenjen analiziranju zaporedja genomov, je ena najboljših rešitev. Bil je rezultat integracije znotraj Hadoopa med hitrim algoritmom za poravnavo sekvenciranih podatkov, ki se imenuje Bowtie, in močnim algoritmom, ki primerja in proučuje zaporedne podatke, to je genotiper z imenom SoapSNP. Zgrajena je na Apache Hadoop in temelji na izvajanju okvira MapReduce. Samostrel je prenosljiv, razširljiv in je primeren tudi kot orodje za računalništvo v oblaku.

S to močno integracijo je mogoče v enem dnevu v lokalnem grozdu z 10 vozlišči pregledati celoten genom. S skupino 40 vozlišč je postopek še hitrejši in se konča v samo treh urah s skupnimi stroški manj kot 100 dolarjev! Študija, izvedena za testiranje natančnosti Crossbow, je pokazala, da lahko primerja vsak genom z 99-odstotno natančnostjo. Druga koristna lastnost samostrela je, da deluje na oblaku. Tako bo samostrelka lahko na tisoče prihodnjih sekvenčnih centrov, kot so bolnišnice, zaporedila velike količine podatkov o genomu, ne da bi potrebovali kakšne močne, drage računalnike in tehnologijo.

Druga programska oprema Genomics, ki temelji na Hadoopu

Številna podjetja so prepoznala moč Hadoopa pri spreminjanju sveta genomike. Hadoop so ustrezno spremenili tako, da izkoristijo njegov potencial za napredno sekvenciranje genomov. Nekaj primerov znanih rešitev sekvenciranja genomov, ki temeljijo na Hadoopu:

Hadoop-BAM: To je močno orodje za upravljanje podatkov, ki uporablja Hadoop funkcijo MapReduce za različne dejavnosti, povezane z genomiko, kot je genotipizacija. To deluje v obliki Binarne poravnave / zemljevida.
Cloudburst: Ta rešitev, ki temelji na Hadoopu, je bila ustvarjena leta 2009. Izjemno je učinkovita pri primerjanju zaporedja genomov in preslikavi posameznih genov. To je tudi ena prvih aplikacij, ki temeljijo na Hadoop-u, zasnovana v ta namen.

Zaključek

V sodobnem času se izkazuje, da je integracija velikih podatkov in industrije genomike blaginja. Te platforme so učinkovite pri odkrivanju zdravljenja več bolezni, kot je rak. Podatki, ki jih najdemo s kartiranjem genomov, se lahko uporabijo za oblikovanje preventivnih informacij o takih boleznih. Pojav velikih podatkov je v svetu genomike lahko prelomna točka, in če se informacije uporabljajo pametno, potem morda tudi na širšem področju zdravstva. Edini način za napredovanje tega področja je uporaba ustreznih orodij za upravljanje podatkov, kot je Hadoop.