Possono mai esserci troppi dati nei big data?

Contenuto

D:

UN:

La risposta alla domanda è un clamoroso SÌ. Possono esserci assolutamente troppi dati in un progetto di big data.

Esistono numerosi modi in cui ciò può accadere e vari motivi per cui i professionisti devono limitare e curare i dati in qualsiasi numero di modi per ottenere i risultati giusti. (Leggi 10 grandi miti sui big data.)

In generale, gli esperti parlano di differenziare il "segnale" dal "rumore" in un modello. In altre parole, in un mare di big data, i dati di approfondimento rilevanti diventano difficili da prendere di mira. In alcuni casi, stai cercando un ago in un pagliaio.

Ad esempio, supponiamo che un'azienda stia tentando di utilizzare i big data per generare approfondimenti specifici su un segmento di una base di clienti e i loro acquisti in un periodo di tempo specifico. (Leggi Cosa fanno i big data?)

L'accumulo di un'enorme quantità di risorse di dati può comportare l'assunzione di dati casuali che non sono rilevanti, o potrebbe persino produrre un pregiudizio che distorce i dati in una direzione o nell'altra.

Inoltre, rallenta drasticamente il processo, poiché i sistemi informatici devono lottare con set di dati sempre più grandi.

In così tanti diversi tipi di progetti, è estremamente importante che i data engineer curino i dati in set di dati specifici e limitati - nel caso precedente, sarebbero solo i dati per quel segmento di clienti che vengono studiati, solo i dati per quel tempo frame in fase di studio e un approccio che elimina identificatori aggiuntivi o informazioni di base che possono confondere le cose o rallentare i sistemi. (Ruolo ReadJob: Data Engineer.)

Per di più, vediamo come funziona nella frontiera dell'apprendimento automatico. (Leggi Machine Learning 101.)

Gli esperti di machine learning parlano di qualcosa chiamato "overfitting" in cui un modello troppo complesso porta a risultati meno efficaci quando il programma di machine learning viene sciolto su nuovi dati di produzione.

Il sovradimensionamento si verifica quando un set complesso di punti dati corrisponde troppo bene a un set di addestramento iniziale e non consente al programma di adattarsi facilmente ai nuovi dati.

Ora tecnicamente, il sovradimensionamento non è causato dall'esistenza di troppi campioni di dati, ma dall'incoronazione di troppi punti di dati. Ma potresti sostenere che avere troppi dati può essere un fattore che contribuisce a questo tipo di problema. Affrontare la maledizione della dimensionalità implica alcune delle stesse tecniche utilizzate nei precedenti progetti di big data mentre i professionisti cercavano di individuare ciò che stavano alimentando i sistemi IT.

La linea di fondo è che i big data possono essere di enorme aiuto per le aziende o possono diventare una grande sfida. Un aspetto di ciò è se l'azienda ha in gioco i dati giusti. Gli esperti sanno che non è consigliabile scaricare semplicemente tutte le risorse di dati in una tramoggia e elaborare insight in quel modo - nei nuovi sistemi di dati nativi e sofisticati nel cloud, c'è uno sforzo per controllare e gestire e curare i dati al fine di ottenere più accurati e uso efficiente delle risorse di dati.