Hadoop Analytics: la combinazione di dati richiede un approccio agnostico-sorgente

Autore: Laura McKinney
Data Della Creazione: 1 Aprile 2021
Data Di Aggiornamento: 16 Maggio 2024
Anonim
SAP HANA l’evoluzione necessaria del Data Warehouse 19 05 2017
Video: SAP HANA l’evoluzione necessaria del Data Warehouse 19 05 2017


Fonte: Agsandrew / Dreamstime.com

Porta via:

I metodi agnostici di origine sono ideali per l'elaborazione dei dati per l'analisi di Hadoop.

La combinazione di origini dati in Hadoop è un'attività complessa. Alcuni dei motivi per questo includono:

  • Gli script personalizzati specifici della sorgente che combinano le origini dati sono problematici.
  • L'uso di strumenti di integrazione dei dati o di data science introduce troppa incertezza.
  • L'aggiunta di dati da fonti esterne è quasi impossibile.

Oggi parlerò del modo in cui l'analitica di Hadoop viene migliorata attraverso tecnologie indipendenti dalla fonte che semplificano la combinazione di origini dati interne ed esterne. Oltre a descrivere come funzionano i metodi indipendenti dalla fonte, tratterò anche perché l'analitica di Hadoop necessita di capacità di trasferimento di informazioni e intelligence integrate, una comprensione delle relazioni e delle caratteristiche dei dati e un'architettura scalabile e ad alte prestazioni.



  • Metodi agnostici di origine includere un modello flessibile di risoluzione delle entità che consenta l'aggiunta di nuove fonti di dati utilizzando processi di data science statisticamente solidi e ripetibili. Questi processi sfruttano gli algoritmi per raccogliere conoscenze dai dati e valutarli, analizzarli per determinare il miglior approccio di integrazione.
    Non importa quanto siano frammentati o incompleti i record di origine originali, le tecnologie di analisi di Hadoop dovrebbero essere indipendenti dalla fonte e essere in grado di unificare i dati senza modificare o manipolare i dati di origine. Queste tecnologie dovrebbero anche creare indici di entità basati sul contenuto dei dati e attributi sugli individui e su come esistono nel mondo. A tale scopo, devono comprendere il contenuto, la con, la struttura dei dati e il modo in cui i componenti si collegano tra loro.
  • Competenza scientifica integrata e integrazione dei dati consente ai dati di essere ripuliti, standardizzati e correlati con un alto grado di accuratezza e precisione. Gli strumenti e i report di visualizzazione aiutano gli analisti a valutare e apprendere dai dati ed eseguire l'ottimizzazione del sistema in base alle conoscenze acquisite da diverse fasi del processo.
  • Comprensione delle relazioni tra entità si traduce in processi di risoluzione delle entità più accurati. Poiché le entità del mondo reale non sono solo la somma dei loro attributi, ma anche delle loro connessioni, la conoscenza delle relazioni dovrebbe essere utilizzata per rilevare quando i record sono gli stessi. Ciò è particolarmente importante per la gestione di casi angolari e big data.
  • Caratterizzazione dei dati migliora l'analisi, la risoluzione e il collegamento dei dati identificando e fornendo informazioni per le fonti di dati. Può aiutare a convalidare il contenuto, la densità e la distribuzione dei dati all'interno di colonne di informazioni strutturate. La caratterizzazione dei dati può anche essere utilizzata per identificare ed estrarre importanti dati relativi all'entità (nome, indirizzo, data di nascita, ecc.) Da fonti non strutturate e semi-strutturate per la correlazione con fonti strutturate.
  • Architettura parallela scalabile esegue rapidamente analisi anche quando supporta centinaia di fonti di dati strutturate, semi-strutturate e non strutturate e decine di miliardi di record.

Hadoop sta cambiando il modo in cui il mondo esegue analisi. Quando vengono aggiunte nuove analisi indipendenti dalla fonte agli ecosistemi di Hadoop, le organizzazioni possono collegare i punti attraverso molte fonti di dati interne ed esterne e ottenere informazioni che prima non erano possibili.


Questo articolo è stato originariamente pubblicato su Novetta.com. È stato reed qui con il permesso. Novetta conserva tutti i diritti d'autore.