Kudu: un punto di svolta nell'ecosistema Hadoop?

Contenuto

Che cos'è Kudu?
Che cos'è lo stato corrente di Kudus?
In che modo Kudu può integrare HDFS / HBase?
Caratteristiche del framework Kudu
Come può Kudu cambiare l'ecosistema Hadoop?
Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita
Conclusione

Fonte: Agsandrew / Dreamstime.com

Porta via:

Kudu è un progetto open source che aiuta a gestire l'archiviazione in modo più efficiente.

Kudu è un nuovo progetto open source che fornisce spazio di archiviazione aggiornabile. È un complemento di HDFS / HBase, che fornisce archiviazione sequenziale e di sola lettura. Kudu è più adatto per analisi veloci su dati veloci, che è attualmente la domanda di business. Quindi Kudu non è solo un altro progetto dell'ecosistema Hadoop, ma ha il potenziale per cambiare il mercato. (Per ulteriori informazioni su Hadoop, consulta I 10 termini Hadoop più importanti che devi conoscere e comprendere.)

Che cos'è Kudu?

Kudu è un tipo speciale di sistema di archiviazione che memorizza i dati strutturati sotto forma di tabelle. Ogni tabella ha un numero di colonne predefinite. Ognuno di essi ha una chiave primaria che in realtà è un gruppo di una o più colonne di quella tabella. Questa chiave primaria viene creata per aggiungere una restrizione e proteggere le colonne, e funziona anche come indice, che consente un facile aggiornamento ed eliminazione. Queste tabelle sono una serie di sottoinsiemi di dati chiamati tablet.

Che cos'è lo stato corrente di Kudus?

Kudu è davvero ben sviluppato ed è già abbinato a molte funzionalità. Tuttavia, sarà comunque necessario un po 'di lucidatura, che può essere eseguita più facilmente se gli utenti suggeriscono e apportano alcune modifiche.

Kudu è completamente open source e ha la licenza software Apache 2.0. Inoltre, è destinato a essere inviato ad Apache, in modo che possa essere sviluppato come un progetto di incubatore Apache. Ciò consentirà al suo sviluppo di progredire ancora più rapidamente e di aumentare ulteriormente il suo pubblico. Dopo un certo periodo di tempo, lo sviluppo di Kudu sarà reso pubblico e trasparente. Molte aziende come AtScale, Xiaomi, Intel e Splice Machine si sono unite per contribuire allo sviluppo di Kudu. Kudu ha anche una grande comunità, in cui un gran numero di pubblico sta già fornendo i propri suggerimenti e contributi. Quindi, sono le persone che stanno portando avanti lo sviluppo di Kudu.

In che modo Kudu può integrare HDFS / HBase?

Kudu non è pensato per essere un sostituto di HDFS / HBase. In realtà è progettato per supportare sia HBase che HFDS e correre al loro fianco per aumentare le loro funzionalità. Questo perché HBase e HDFS hanno ancora molte funzionalità che le rendono più potenti di Kudu su alcune macchine. Nel complesso, tali macchine trarranno maggiori benefici da questi sistemi.

Caratteristiche del framework Kudu

Le caratteristiche principali del framework Kudu sono le seguenti:

Scansioni estremamente veloci delle colonne della tabella: i migliori formati di dati come Parquet e ORCFile necessitano delle migliori procedure di scansione, che sono gestite perfettamente da Kudu. Tali formati richiedono scansioni rapide che possono verificarsi solo quando i dati colonnari sono codificati correttamente.
Affidabilità delle prestazioni - Il framework Kudu aumenta l'affidabilità complessiva di Hadoop colmando molte lacune e lacune presenti in Hadoop.
Facile integrazione con Hadoop - Kudu può essere facilmente integrato con Hadoop e i suoi diversi componenti per una maggiore efficienza.
Completamente open source: Kudu è un sistema open source con licenza Apache 2.0. Ha una vasta comunità di sviluppatori di diverse aziende e background, che lo aggiornano regolarmente e forniscono suggerimenti per le modifiche.

Come può Kudu cambiare l'ecosistema Hadoop?

Kudu è stato creato per adattarsi all'ecosistema di Hadoop e migliorarne le funzionalità. Può anche integrarsi con alcuni dei componenti chiave di Hadoop come MapReduce, HBase e HDFS. I lavori MapReduce possono fornire dati o acquisire dati dalle tabelle Kudu. Queste funzionalità possono essere utilizzate anche in Spark. Un livello speciale rende alcuni componenti Spark come Spark SQL e DataFrame accessibili a Kudu. Sebbene Kudu non sia stato sviluppato tanto da sostituire queste funzionalità, si stima che dopo alcuni anni, sarà sviluppato abbastanza per farlo. Fino ad allora, l'integrazione tra Hadoop e Kudu è davvero molto utile e può colmare le lacune principali dell'ecosistema di Hadoop. (Per ulteriori informazioni su Apache Spark, vedere Come Apache Spark aiuta lo sviluppo rapido di applicazioni.)

Kudu può essere implementato in vari luoghi. Di seguito sono riportati alcuni esempi di tali luoghi:

Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

Streaming di input in tempo quasi reale - Nei luoghi in cui è necessario ricevere gli input al più presto, Kudu può svolgere un lavoro straordinario. Un esempio di tale posizione è nelle aziende, in cui grandi quantità di dati dinamici si riversano da fonti diverse e devono essere rese disponibili rapidamente in tempo reale.
Applicazioni di serie temporali con diversi modelli di accesso: Kudu è perfetto per le applicazioni basate su serie temporali perché è più semplice impostare tabelle e scansionarle usando. Un esempio di tale utilizzo è nei grandi magazzini, dove i vecchi dati devono essere trovati rapidamente ed elaborati per prevedere la futura popolarità dei prodotti.
Sistemi legacy - Molte aziende che ottengono dati da varie fonti e li archiviano in diverse workstation si sentiranno a casa con Kudu. Kudu è estremamente veloce e può integrarsi efficacemente con Impala per elaborare i dati su tutte le macchine.
Modellazione predittiva: i data scientist che desiderano una buona piattaforma per la modellazione possono utilizzare Kudu. Kudu può imparare da ogni serie di dati inseriti. Lo scienziato può eseguire e rieseguire ripetutamente il modello per vedere cosa succede.

Conclusione

Anche se Kudu è ancora in fase di sviluppo, ha abbastanza potenziale per essere un buon componente aggiuntivo per componenti Hadoop standard come HDFS e HBase. Ha un potenziale sufficiente per cambiare completamente l'ecosistema Hadoop colmando tutte le lacune e aggiungendo anche alcune funzionalità in più. È anche molto veloce e potente e può aiutare ad analizzare e archiviare rapidamente grandi tabelle di dati. Tuttavia, resta ancora del lavoro da fare per un utilizzo più efficiente.