I 10 termini più importanti di Hadoop che devi conoscere e comprendere

Contenuto

Ma prima, uno sguardo a come funziona Hadoop
Hadoop Common
Hadoop Distributed File System (HDFS)
Riduci mappa
HBase
Alveare
Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita
Maiale Apache
Apache Spark
Apache Cassandra
Ancora un altro negoziatore di risorse (YARN)
Impala

Fonte: Trueffelpix / Dreamstime.com

Porta via:

Per capire davvero i big data, devi capire un po 'di Hadoop e il linguaggio che lo circonda.

I big data, il nome accattivante per enormi volumi di dati strutturati, non strutturati o semi-strutturati, è notoriamente difficile da catturare, archiviare, gestire, condividere, analizzare e visualizzare, almeno utilizzando applicazioni software e database tradizionali. Ecco perché le tecnologie dei big data hanno il potenziale per gestire ed elaborare enormi volumi di dati in modo efficace ed efficiente. E il suo Apache Hadoop che fornisce il framework e le tecnologie associate per elaborare grandi set di dati tra cluster di computer in modo distribuito. Quindi, per capire davvero i big data, devi capire un po 'di Hadoop. Qui bene dai un'occhiata ai termini migliori che sentirai riguardo a Hadoop - e cosa significano.

Ma prima, uno sguardo a come funziona Hadoop

Prima di entrare nell'ecosistema Hadoop, è necessario comprendere chiaramente due cose fondamentali. Il primo è come un file è archiviato in Hadoop; il secondo è come vengono elaborati i dati memorizzati. Tutte le tecnologie relative a Hadoop lavorano principalmente su queste due aree e la rendono più user-friendly. (Scopri le basi di come funziona Hadoop in Come Hadoop aiuta a risolvere il problema dei Big Data.)

Ora, ai termini.

Hadoop Common

Il framework Hadoop ha moduli diversi per funzionalità diverse e questi moduli possono interagire tra loro per vari motivi. Hadoop Common può essere definito come una libreria di utility comuni per supportare questi moduli nell'ecosistema Hadoop. Queste utility sono fondamentalmente file JAR (Java), archiviati. Queste utility vengono utilizzate principalmente da programmatori e sviluppatori durante i tempi di sviluppo.

Hadoop Distributed File System (HDFS)

Hadoop Distributed File System (HDFS) è un sottoprogetto di Apache Hadoop sotto la Apache Software Foundation. Questa è la spina dorsale dello storage nel framework Hadoop. Si tratta di un file system distribuito, scalabile e tollerante agli errori che si estende su più hardware delle materie prime noto come cluster Hadoop. L'obiettivo di HDFS è di archiviare un volume enorme di dati in modo affidabile con un accesso a throughput elevato ai dati dell'applicazione. L'HDFS segue l'architettura master / slave, in cui il master è noto come NameNode e gli slave sono noti come DataNodes.

Riduci mappa

Hadoop MapReduce è anche un sottoprogetto di Apache Software Foundation. MapReduce è in realtà un framework software scritto esclusivamente in Java. Il suo obiettivo principale è elaborare grandi set di dati in un ambiente distribuito (composto da hardware di base) in modo completamente parallelo. Il framework gestisce tutte le attività come la pianificazione del lavoro, il monitoraggio, l'esecuzione e la riesecuzione (in caso di attività non riuscite).

HBase

Apache HBase è noto come database Hadoop. È un archivio di big data colonnare, distribuito e scalabile. È anche noto come un tipo di database NoSQL che non è un sistema di gestione di database relazionale. Le applicazioni HBase sono anche scritte in Java, costruite su Hadoop ed eseguite su HDFS. HBase viene utilizzato quando hai bisogno di lettura / scrittura in tempo reale e accesso casuale ai big data. HBase è modellato sulla base dei concetti di BigTable di Google.

Alveare

Apache Hive è un sistema software di data warehouse open source. Hive è stato originariamente sviluppato da prima che passasse sotto la Apache Software Foundation e diventasse open source. Facilita la gestione e l'interrogazione di grandi set di dati su storage distribuito compatibile Hadoop. Hive esegue tutte le sue attività utilizzando un linguaggio simile a SQL noto come HiveQL. (Scopri di più in Una breve introduzione ad Apache Hive and Pig.)

Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

Maiale Apache

Pig è stato originariamente avviato da Yahoo per lo sviluppo e l'esecuzione di lavori MapReduce su un grande volume di dati distribuiti. Ora è diventato un progetto open source sotto la Apache Software Foundation. Apache Pig può essere definito come una piattaforma per analizzare in modo efficiente insiemi di dati di grandi dimensioni. Il livello di infrastruttura di suini produce sequenze di lavori MapReduce per l'elaborazione effettiva. Il livello linguistico dei maiali è noto come Pig Latin e fornisce funzionalità simili a SQL per eseguire query su set di dati distribuiti.

Apache Spark

Spark è stato originariamente sviluppato da AMPLab presso UC Berkeley. È diventato un progetto di alto livello di Apache a febbraio 2014. Apache Spark può essere definito come un framework open source per scopi generici di cluster computing che rende l'analisi dei dati molto più veloce. È basato su Hadoop Distributed File System ma non è collegato al framework MapReduce. Le prestazioni di Sparks sono molto più veloci rispetto a MapReduce. Fornisce API di alto livello in Scala, Python e Java.

Apache Cassandra

Apache Cassandra è un altro database NoSQL open source. Cassandra è ampiamente utilizzato per gestire grandi volumi di span dati strutturati, semi-strutturati e non strutturati su più data center e cloud storage. Cassandra è progettato sulla base di un'architettura "senza master", il che significa che non supporta il modello master / slave. In questa architettura, tutti i nodi sono uguali e i dati vengono distribuiti automaticamente ed equamente su tutti i nodi. Le caratteristiche più importanti di Cassandras sono disponibilità continua, scalabilità lineare, replica integrata / personalizzabile, nessun singolo punto di errore e semplicità operativa.

Ancora un altro negoziatore di risorse (YARN)

Ancora un altro negoziatore di risorse (YARN) è anche noto come MapReduce 2.0, ma in realtà rientra in Hadoop 2.0. YARN può essere definito come un framework di pianificazione dei lavori e di gestione delle risorse. L'idea di base di YARN è quella di sostituire le funzionalità di JobTracker con due demoni separati responsabili della gestione delle risorse e della pianificazione / monitoraggio. In questo nuovo framework, ci sarà un ResourceManager globale (RM) e un master specifico dell'applicazione noto come ApplicationMaster (AM). Il ResourceManager globale (RM) e il NodeManager (per nodo slave) formano l'effettivo framework di calcolo dei dati. Le applicazioni MapReduce v1 esistenti possono anche essere eseguite su YARN, ma tali applicazioni devono essere ricompilate con barattoli Hadoop2.x.

Impala

Impala può essere definito come un motore di query SQL con un'enorme potenza di elaborazione parallela (MPP). Funziona nativamente sul framework Apache Hadoop. Impala è progettato come parte dell'ecosistema Hadoop. Condivide gli stessi file system flessibili (HDFS), metadati, gestione delle risorse e framework di sicurezza utilizzati da altri componenti dell'ecosistema Hadoop. Il punto più importante è notare che Impala è molto più veloce nell'elaborazione delle query rispetto a Hive. Ma dovremmo anche ricordare che Impala è pensato per query / analisi su un piccolo set di dati ed è principalmente progettato come uno strumento di analisi che funziona su dati elaborati e strutturati.

Hadoop è un argomento importante nell'IT, ma c'è chi è scettico sulla sua fattibilità a lungo termine. Maggiori informazioni in What Is Hadoop? Una teoria cinica.