Perché Hadoop è una combinazione perfetta per il sequenziamento del genoma

Autore: Roger Morrison
Data Della Creazione: 19 Settembre 2021
Data Di Aggiornamento: 5 Maggio 2024
Anonim
Perché Hadoop è una combinazione perfetta per il sequenziamento del genoma - Tecnologia
Perché Hadoop è una combinazione perfetta per il sequenziamento del genoma - Tecnologia

Contenuto


Fonte: A3701027 / Dreamstime.com

Porta via:

Il sequenziamento del genoma richiede potenti strumenti tecnologici per gestire tutti i suoi dati e Hadoop è all'altezza del compito.

La genomica clinica è un argomento affascinante, in cui le persone stanno lavorando su tecnologie all'avanguardia per elaborare risultati rapidi e precisi. Ci sono molti sequencer del genoma disponibili sul mercato e stanno producendo petabyte di dati di sequenza, e la crescita nel sequenziamento produrrà exabyte di dati nel prossimo futuro. Qui, Hadoop è la piattaforma perfetta per l'elaborazione di flussi di lavoro di genomica complessi. Hadoop può archiviare e ordinare enormi quantità di informazioni e può anche fornire analisi significative. (Per avere un'idea della quantità di dati che ciò comporta veramente, leggi Comprensione di bit, byte e loro multipli.)

Il presente e il futuro della genomica

Oggi, la mappatura del genoma ha raggiunto il suo apice di sviluppo. Molte persone associate all'industria della genomica esplodono di curiosità e, poiché si stanno presentando nuove opportunità, una tecnologia migliore è il bisogno dell'ora. Il sequenziamento del genoma è un'attività molto ripetitiva e ad alta intensità di risorse. Solo nel 2013 sono stati prodotti circa 15 petabyte di dati e solo da 2.000 sequencer. Questa incredibile quantità includeva 300 KB di dati sequenziati sul genoma umano. A questo ritmo di produzione dei dati, si può stimare che entro il 2018 saranno prodotti circa un esabyte di dati. Ciò sarà dovuto alla crescita dei sequencer, che produrranno sempre più dati per serie. Un altro motivo è l'avvento di macchine per sequenziamento del genoma estremamente potenti ed economiche. Dal 2008, il prezzo di queste macchine è in costante calo. Ciò è dovuto alle potenti macchine di prossima generazione che sono entrate nel mercato.


I bisogni dell'industria della mappatura del genoma

Algoritmi complessi vengono utilizzati per elaborare i dati raccolti dal genoma umano. Quindi, queste informazioni devono essere archiviate. Potrebbe essere rivisto in futuro per il confronto con i dati originali. Il compito di elaborare e archiviare 100 GB di dati non è troppo difficile, specialmente quando lo si fa con le potenti macchine impiegate nei centri di sequenziamento. Gli studi dimostrano che questa quantità di dati può essere elaborata in circa 1.000 ore di CPU, quindi è molto semplice. A questo ritmo di avanzamento tecnico, è evidente che l'industria del genoma elaborerà presto migliaia di gigabyte in pochi secondi.

Tuttavia, le tecniche di gestione e archiviazione dei dati non si evolvono così rapidamente, per cui è prevedibile una grande perdita di dati preziosi. Questo è davvero indesiderabile, poiché ostacolerà seriamente i progressi compiuti nella genomica umana. Pertanto, la necessità di una tecnica di gestione dei dati efficiente, che può essere facilmente aggiornata, è molto elevata. Questo può essere efficace soprattutto nel prossimo futuro, in cui la mappatura del genoma si sposterà da grandi laboratori con potenti computer a piccoli ospedali e laboratori.


Cosa ci si aspetta dalla soluzione?

Il ritmo con cui vengono scoperte e sviluppate nuove tecniche di sequenziamento genomico è estremamente elevato. Questo ritmo può essere molto utile per la scienza medica sotto forma di un potente passo verso l'eradicazione delle principali malattie. Tuttavia, questo ritmo può anche essere molto impegnativo.

La sfida si presenta sotto forma di gestione di grandi quantità di dati prodotti dai progetti di sequenziamento. Pertanto, è necessaria una soluzione efficace che aiuterà con l'archiviazione e l'elaborazione dei big data. Questa soluzione deve essere economica e veloce, pur essendo anche adattiva. Anche l'analisi fornita da questa soluzione deve essere esatta e costante. Quindi, qual è la soluzione al problema? Indubbiamente, è Hadoop. (Per ulteriori informazioni sull'uso di Hadoop, consultare 5 Informazioni dettagliate sui Big Data (Hadoop) come servizio.)

Perché Hadoop è la migliore soluzione per il sequenziamento del genoma

Ciò di cui l'industria genomica ha bisogno è una soluzione superiore che può aiutarli a gestire efficacemente i dati, elaborarli e archiviarli per un uso futuro. Questa soluzione sembra corrispondere perfettamente al software Hadoop. Quindi, Hadoop può essere considerato il perfetto software di gestione dei big data in grado di migliorare notevolmente le attuali tecniche di archiviazione dei dati nel settore della genomica.

Le funzionalità in tempo reale di Hadoop consentono ai sequenziatori del genoma di analizzare e archiviare grandi quantità di dati contemporaneamente in tempo reale. Ciò consente anche l'utilizzo futuro dei dati. Hadoop può battere molti sistemi legacy, in quanto è molto più veloce e più affidabile di loro.

Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

Che altro può fare Hadoop?

Grazie a Hadoop, un gran numero di possibilità e opportunità si sono aperte nel campo della genomica e del sequenziamento genico. Hadoop offre opzioni di elaborazione parallele grazie alle quali è possibile un sequenziamento più veloce. Inoltre, utilizzando la funzione MapReduce di Hadoop, è possibile mappare facilmente un gran numero di geni. Per questo motivo, il sequenziamento con Hadoop diventerà veramente "next-gen" e sarà molto meno complicato.

Opportunità per Hadoop

Hadoop ha diverse opportunità nel settore del genoma, ma la migliore è stata derivata dall'articolo di Lynda Chin "Rendere i dati genomici sul cancro", sulla rivista Genes & Development. In questo articolo, discute di come la genomica moderna abbia aperto nuove porte e questo ha portato a molti risultati positivi come la scoperta di informazioni genomiche sul cancro. Per questo motivo, siamo più vicini a scoprire la cura per il cancro stesso. Tuttavia, ciò richiede un po 'più di attenzione e una potente applicazione di gestione dei dati per una migliore capacità di ricerca sul campo. Questa può essere la migliore opportunità per Hadoop di dimostrare la sua velocità, potenza e precisione.

Balestra: la piattaforma di gestione dei dati di prossima generazione

Crossbow, che è una pipeline software pensata per l'analisi del sequenziamento del genoma, è una delle migliori soluzioni. Fu il risultato dell'integrazione all'interno di Hadoop tra un rapido algoritmo per allineare i dati sequenziati, che si chiama Bowtie, e un potente algoritmo che confronta ed esamina i dati sequenziati, cioè un genotipo chiamato SoapSNP. È basato su Apache Hadoop e si basa su un'implementazione del framework MapReduce. La balestra è portatile, scalabile ed è adatta anche come strumento di cloud computing.

Con questa potente integrazione, un genoma completo può essere esaminato in un solo giorno su un cluster locale con 10 nodi. Con un cluster a 40 nodi, il processo è ancora più veloce e si completa in sole tre ore con un costo totale inferiore a $ 100! Uno studio condotto per testare l'accuratezza di Balestra ha dimostrato che può confrontare ogni genoma con un'accuratezza del 99 percento. Un'altra utile funzionalità di Crossbow è che funziona sul cloud. Pertanto, Crossbow consentirà a migliaia di futuri centri di sequenziamento, come gli ospedali, di sequenziare grandi quantità di dati sul genoma senza la necessità di computer e tecnologie potenti e costosi.

Altri software di genomica basati su Hadoop

Molte aziende hanno riconosciuto il potere di Hadoop nel cambiare il mondo della genomica. Hanno opportunamente modificato Hadoop per sfruttare il suo potenziale per il sequenziamento del genoma avanzato. Di seguito sono riportati alcuni esempi delle famose soluzioni di sequenziamento del genoma basate su Hadoop:

  • Hadoop-BAM: questo è un potente strumento di gestione dei dati che utilizza la funzione MapReduce di Hadoop per varie attività legate alla genomica, come la genotipizzazione. Funziona nel formato Allineamento binario / Mappa.
  • Cloudburst: questa soluzione basata su Hadoop è stata creata nel 2009. È estremamente efficiente nel confrontare sequenze di genomi e mappare singoli geni. Questa è anche una delle prime applicazioni basate su Hadoop progettate per questo scopo.

Conclusione

L'integrazione tra big data e industria della genomica si sta dimostrando un vantaggio nei tempi moderni. Queste piattaforme sono efficaci nella scoperta dei trattamenti di diverse malattie come il cancro. I dati rilevati dalla mappatura del genoma possono essere utilizzati per la formulazione di informazioni preventive su tali malattie. L'avvento dei big data può essere considerato un punto di svolta nel mondo della genomica e, se le informazioni vengono utilizzate saggiamente, probabilmente anche nel più ampio campo dell'assistenza sanitaria. L'unico modo per far avanzare questo campo è l'uso di adeguati strumenti di gestione dei dati come Hadoop.