Cataloghi di dati e maturazione del mercato dell'apprendimento automatico

Autore: Roger Morrison
Data Della Creazione: 28 Settembre 2021
Data Di Aggiornamento: 21 Giugno 2024
Anonim
Cataloghi di dati e maturazione del mercato dell'apprendimento automatico - Tecnologia
Cataloghi di dati e maturazione del mercato dell'apprendimento automatico - Tecnologia

Contenuto


Fonte: Nmedia / Dreamstime.com

Porta via:

Il mercato MLDC sta crescendo e le aziende che cercano di sfruttare efficacemente i big data con l'apprendimento automatico dovrebbero essere consapevoli dei nomi più importanti nel settore e delle loro classifiche individuali.

Questa è l'era dei big data. Siamo inondati di informazioni e le aziende trovano una sfida gestire ed estrarne il valore.

Oggi il flusso di big data comporta non solo volume, varietà e velocità, ma anche complessità. Come identificato da SAS nella storia dei Big Data e considerazioni attuali, questo è un fattore dei flussi "provenienti da più fonti, il che rende difficile collegare, abbinare, pulire e trasformare i dati tra i sistemi". (Vuoi saperne di più sui big data? Dai un'occhiata a (Big) Datas Big Future.)

Trovare informazioni preziose non è solo una questione di accumulare quanti più dati possibili, ma di trovare i dati giusti. È impossibile elaborare tutto con processi manuali. Questo è il motivo per cui sempre più aziende "si rivolgono ai cataloghi di dati per democratizzare l'accesso ai dati, consentire la conoscenza dei dati tribali per curare le informazioni, applicare politiche sui dati e attivare rapidamente tutti i dati per un valore aziendale".


Qui è dove i cataloghi di dati (a volte noti anche come cataloghi di informazioni) entrano nella foto. Come definito qui, abilitano "gli utenti a esplorare le loro fonti di dati richieste e comprendere le fonti di dati esplorate, e allo stesso tempo aiutare le organizzazioni a ottenere più valore dai loro attuali investimenti". Uno dei modi in cui lo fa è consentire un accesso molto maggiore ai dati, tra diversi tipi di utenti che possono farne uso o contribuire ad essi.

L'imperativo di infonomia

Notando la drammatica aumento della domanda di cataloghi di dati alla fine del 2017, Gartner li ha definiti "il nuovo nero". Stavano diventando riconosciuti come una soluzione rapida ed economica "per inventario e classificare le organizzazioni di dati sempre più distribuite e disorganizzate e mappare le loro catene di approvvigionamento di informazioni". La necessità di ciò è emersa a causa dell'ascesa dell '"infonomia", che richiede di applicare la stessa meticolosità al monitoraggio delle informazioni che si fa alla gestione di altri beni aziendali. (Per ulteriori informazioni sulle catene di approvvigionamento, vedere Come l'apprendimento automatico può migliorare l'efficienza della catena di approvvigionamento.)


I Gartner fanno jibes con The Forrester Wave ™: Machine Learning Data Catalogs, Q2 2018. Oltre la metà dei partecipanti al sondaggio in quel rapporto ha dichiarato che stavano progettando di costruire l'implementazione del loro catalogo di dati. Probabilmente erano in gran parte motivati ​​dal fatto che ognuno aveva almeno sette data lake nella propria organizzazione. Come spiega Gartner sui cataloghi di dati, i cataloghi di dati sono particolarmente utili per estrarre "il con, il significato e il valore dei dati" che viene generalmente lasciato in una forma non classificata in un lago di dati.

Forrester riferisce che nel 2017 oltre un terzo dei responsabili delle analisi dei dati e dei dati aveva a che fare con 1.000 TB o più di dati, un importo riportato solo tra il 10 e il 14% l'anno precedente. La gestione dei dati su tale scala rappresenta una sfida crescente o, in particolare, due sfide:

"1) fusione dei processi aziendali esistenti per ottenere i dati per analizzarli e implementare approfondimenti e 2) reperimento, raccolta, gestione e governo dei dati man mano che crescono."

Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

Cosa possono fare i cataloghi di dati per le aziende

Gartner identifica i modi specifici in cui i cataloghi di dati possono migliorare il flusso di informazioni e produttività delle organizzazioni:

  • Raccolta e comunicazione dell'inventario delle risorse di informazioni aggiornate disponibile per l'organizzazione.

  • Creare il glossario comune dei termini commerciali che definisce l'interpretazione e il significato semantici dei dati delle organizzazioni, fornendo così i mezzi per mediare e risolvere le incoerenze definitive.

  • Consentire un ambiente di collaborazione dinamico e agile per consentire ai colleghi di lavoro e IT di commentare, documentare e condividere dati.

  • Fornire trasparenza sull'utilizzo dei dati con lignaggio e analisi dell'impatto.

  • Monitoraggio, controllo e traccia dei dati a supporto dei processi di governance delle informazioni.

  • Acquisizione di metadati per migliorare l'analisi interna dell'utilizzo e del riutilizzo dei dati, l'ottimizzazione delle query e la certificazione dei dati.

  • Conualizzare le informazioni all'interno del suo utilizzo aziendale acquisendo, comunicando e analizzando quali dati esistono, da dove provengono, in quali aspetti sono utilizzati, perché sono necessari, come scorre tra processi e sistemi, chi è responsabile per ciò, cosa significa e che valore ha.

Ottenere i dati correttamente identificati e accessibili alle persone chiave dell'organizzazione è importante, afferma il rapporto Gartner, non solo per trovare il modo "di monetizzare le risorse di dati per i risultati di business digitali", ma per conformarsi alle normative, indipendentemente dal fatto che siano specifico come la legge sulla portabilità e la responsabilità dell'assicurazione malattia (HIPAA) o di natura più generale come il regolamento generale sulla protezione dei dati (GDPR).

Aggiunta nell'apprendimento automatico

Ma nulla è privo di inconvenienti. Per i cataloghi di dati, il problema è stato il processo lento e noioso che ha comportato la loro creazione manuale con tutti i metadati che devono essere messi in atto. È qui che entra in gioco il componente di apprendimento automatico.

I cataloghi di dati che Forrester ha valutato sono chiamati MLDC perché sfruttano il potere dell'apprendimento automatico, uno dei componenti dell'IA. Come ha spiegato un blog Podium Data, ciò rende possibile "costruire un repository persistente di metadati e quindi applicare ML / AI per scovare ed esporre approfondimenti potenzialmente utili sulle risorse di dati sottostanti".

Come scegliere

Per aiutare le organizzazioni a valutare quale azienda dovrebbe selezionare, Forrester ha applicato 29 punti di valutazione ai 12 principali MLDC. Ha identificato i leader di questo mercato come: IBM, Relito, Unifi Software, Alation e Collibra. I migliori artisti che ha trovato sono Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics e Cloudera. Hortonworks è solo nel rango di "contendente".

Tuttavia, non si dovrebbe seguire la classifica generale da solo. La relazione analizza i punti di forza e di debolezza di ciascuno. Di conseguenza, se una caratteristica particolare, come la ricerca e lo sviluppo, è della massima importanza per un'organizzazione, potrebbe considerare Hortonworks come uguale a IBM e Colilbra per quell'aspetto perché quei tre condividono il punteggio più alto di cinque per quella qualità, che era due punti migliori di Alation e Coloudera e quattro punti migliori di Cambridge Semantics.

Di conseguenza, il rapporto Forrester avvisa coloro che usano il suo rapporto come guida per non presumere che la migliore compagnia sia la scelta migliore per tutti. Dovrebbero prestare molta attenzione alla suddivisione della valutazione per trovare ciò che soddisfa i loro requisiti particolari.