Quali sono i vantaggi del framework Hadoop 2.0 (YARN)?

Autore: Roger Morrison
Data Della Creazione: 18 Settembre 2021
Data Di Aggiornamento: 1 Luglio 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Contenuto


Fonte: Jim Hughes / Dreamstime.com

Porta via:

YARN è un miglioramento significativo rispetto al framework Hadoop 1.0. Qui esaminiamo alcuni dei vantaggi che ha rispetto al suo predecessore.

Da quando è stato introdotto il concetto di big data, ha attraversato diverse fasi di evoluzione. Hadoop è stato introdotto nel 2005 con alcune funzionalità iniziali come il motore di elaborazione MapReduce che ha consentito carichi di lavoro di elaborazione dati su larga scala distribuiti in cluster. La stessa Hadoop ha subito molti cambiamenti e ha sviluppato framework e metodi avanzati.

YARN è un componente chiave di Hadoop 2.0. In pratica gestisce le risorse in un ambiente cluster. Il broker YARN interagisce con le risorse di calcolo (per conto delle applicazioni) e assegna le risorse a ciascuna applicazione in base a criteri di filtro diversi.

In questo articolo, esamineremo i principali vantaggi di YARN rispetto a Hadoop 1.0.


Cos'è il framework YARN?

Yet UNnother ReSource Negotiator è un componente chiave di Hadoop 2.0, che gestisce le risorse in un ambiente cluster. Il framework Hadoop YARN è una versione avanzata di Hadoop 1.0 che fornisce prestazioni migliorate, vantaggiose per l'ecosistema Hadoop e per l'intera gamma di tecnologie ad essa associate. Ora che abbiamo un po 'più familiarità con YARN, diamo un'occhiata più da vicino a Hadoop 1.0 e YARN.

Limitazioni del framework Hadoop 1.0

Per comprendere i vantaggi del framework YARN, è molto importante capire come funziona Hadoop 1.0 e quali sono i limiti di questo framework.

È qui che entra in gioco il ruolo di JobTracker. Gestisce entrambe le risorse del cluster e determina l'esecuzione del lavoro MapReduce. In breve, JobTracker pianifica e riserva gli slot delle attività, configura e monitora ogni attività in esecuzione. Se un'attività ha esito negativo, rialloca un nuovo slot per riavviare l'attività. Al termine di un'attività, JobTracker rilascia lo slot per altre attività e pulisce le risorse temporanee.


Principali svantaggi dell'approccio di cui sopra:

  • Disponibilità: JobTracker è l'unico punto di disponibilità in Hadoop 1.0. Ciò significa che se JobTracker fallisce, tutte le attività verranno riavviate per impostazione predefinita.
  • Scalabilità limitata: poiché JobTracker esegue più attività ed è in esecuzione su una singola macchina, le altre macchine disponibili non vengono utilizzate; quindi, con conseguente ridotta scalabilità.
  • Utilizzo delle risorse - Nell'approccio sopra, gli slot della mappa e gli slot di riduzione sono predefiniti. Potrebbe accadere che uno degli slot sia pieno ma gli altri slot della macchina siano vuoti. Poiché gli slot vuoti sono riservati, resteranno inattivi invece di scendere a compromessi per gli slot completi. Ciò potrebbe causare un problema di utilizzo delle risorse.
  • Esecuzione di applicazioni non MapReduce: JobTracker è un'applicazione creata per il framework MapReduce. Il problema sorge quando un'applicazione non MapReduce tenta di essere eseguita in questo framework. L'applicazione deve essere conforme alla programmazione del framework MapReduce per funzionare correttamente. Alcuni dei problemi comuni affrontati a causa di questo includono problemi con:
    • Query ad hoc
    • Analisi in tempo reale
    • approccio di passaggio
  • Errore nel collegamento in cascata - Uno dei problemi principali in questo framework si verifica quando il numero di nodi è maggiore di 4000. In tale scenario, si verifica un errore in cascata, con conseguente deterioramento del cluster completo.

Queste sono alcune delle principali limitazioni affrontate lavorando con questo framework. Ci sono anche altre limitazioni minori, che non sono menzionate. Il framework YARN è stato introdotto per superare questi limiti.

Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

YARN Framework e i suoi vantaggi

Il framework YARN, introdotto in Hadoop 2.0, intende condividere le responsabilità di MapReduce e occuparsi dell'attività di gestione dei cluster. Ciò consente a MapReduce di eseguire solo l'elaborazione dei dati e quindi di ottimizzare il processo.

YARN introduce il concetto di una gestione delle risorse centrale. Ciò consente l'esecuzione di più applicazioni su Hadoop, condividendo una gestione delle risorse comune.

Alcuni dei principali componenti del framework YARN sono:

  • ResourceManager: il componente ResourceManager è il negoziatore in un cluster per tutte le risorse presenti in quel cluster. Inoltre, questo componente è classificato in un gestore applicazioni che è responsabile della gestione dei lavori degli utenti. Da Hadoop 2.0 qualsiasi lavoro MapReduce sarà considerato come un'applicazione.
  • ApplicationMaster: questo componente è il luogo in cui esiste un lavoro o un'applicazione. Gestisce anche tutti i lavori MapReduce e viene concluso al termine dell'elaborazione del lavoro.
  • NodeManager: il componente Gestione nodi funge da server per la cronologia dei lavori. È responsabile della protezione delle informazioni sui lavori completati. Tiene inoltre traccia dei lavori degli utenti insieme al loro flusso di lavoro per un particolare nodo.

Tenendo presente che il framework YARN ha componenti diversi per gestire le diverse attività, vediamo come contrastano i limiti di Hadoop 1.0.

  • Migliore utilizzo delle risorse: il framework YARN non ha slot fissi per le attività. Fornisce un gestore risorse centrale che consente di condividere più applicazioni tramite una risorsa comune.
  • Esecuzione di applicazioni non MapReduce: in YARN, le funzionalità di pianificazione e gestione delle risorse sono separate dal componente di elaborazione dei dati. Ciò consente a Hadoop di eseguire vari tipi di applicazioni che non sono conformi alla programmazione del framework Hadoop. I cluster Hadoop sono ora in grado di eseguire query interattive indipendenti e di eseguire una migliore analisi in tempo reale.
  • Compatibilità con le versioni precedenti - YARN è un framework compatibile con le versioni precedenti, il che significa che qualsiasi lavoro esistente di MapReduce può essere eseguito in Hadoop 2.0.
  • JobTracker non esiste più: i due ruoli principali di JobTracker sono stati la gestione delle risorse e la pianificazione dei lavori. Con l'introduzione del framework YARN questi sono ora separati in due componenti distinti, vale a dire:
    • NodeManager
    • ResourceManager

Conclusione

L'introduzione del framework YARN ha reso più semplice la creazione di applicazioni per gli sviluppatori Hadoop. Ora, non è più necessario implementare le applicazioni con strumenti di terze parti. YARN è un enorme cambiamento che consentirà agli utenti di considerare Hadoop 2.0 per creare applicazioni e manipolare i dati in modo più efficace. Con il tempo, ci saranno ulteriori sviluppi per migliorare l'usabilità di Hadoop. Per ora, il framework YARN svolgerà un ruolo cruciale nella gestione dei problemi esistenti e nella creazione di un ambiente privo di problemi, più versatile della versione precedente del modello MapReduce.