Quali sono alcuni modi chiave per automatizzare e ottimizzare i processi di data science? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); D:

Autore: Roger Morrison
Data Della Creazione: 28 Settembre 2021
Data Di Aggiornamento: 1 Luglio 2024
Anonim
Quali sono alcuni modi chiave per automatizzare e ottimizzare i processi di data science? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); D: - Tecnologia
Quali sono alcuni modi chiave per automatizzare e ottimizzare i processi di data science? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); D: - Tecnologia

Contenuto

D:

Quali sono alcuni modi chiave per automatizzare e ottimizzare i processi di data science?


UN:

I processi di data science nel contesto dell'apprendimento automatico e dell'intelligenza artificiale possono essere suddivisi in quattro fasi distinte:

  1. acquisizione ed esplorazione dei dati,
  2. costruzione di modelli,
  3. distribuzione del modello e
  4. valutazione e perfezionamento online.

Dalla mia esperienza, le fasi più difficili sono le fasi di acquisizione e distribuzione dei modelli in qualsiasi processo di scienza dei dati basato sull'apprendimento automatico, e qui ci sono due modi per ottimizzarli:

1. Stabilire un archivio dati altamente accessibile.

Nella maggior parte delle organizzazioni, i dati non vengono archiviati in un'unica posizione centrale. Prendiamo solo le informazioni relative ai clienti. Hai informazioni di contatto del cliente, assistenza clienti, feedback dei clienti e cronologia di navigazione dei clienti se la tua azienda è un'applicazione web. Tutti questi dati sono naturalmente dispersi, poiché servono a scopi diversi. Possono risiedere in database diversi e alcuni possono essere completamente strutturati e altri non strutturati e possono anche essere archiviati come file semplici.


Sfortunatamente, la dispersione di questi set di dati è altamente limitante al lavoro di data science in quanto la base di tutti i problemi di PNL, machine learning e AI è dati. Quindi, avere tutti questi dati in un unico posto - il datastore - è fondamentale per accelerare lo sviluppo e la distribuzione del modello. Dato che questo è un elemento cruciale per tutti i processi di data science, le organizzazioni dovrebbero assumere ingegneri di dati qualificati per aiutarli a costruire i loro archivi di dati. Questo può facilmente iniziare come un semplice dump di dati in una posizione e crescere lentamente in un repository di dati ben congegnato, completamente documentato e interrogabile con strumenti di utilità per esportare sottoinsiemi di dati in diversi formati per scopi diversi.

2. Esporre i tuoi modelli come servizio per una perfetta integrazione.

Oltre a consentire l'accesso ai dati, è anche importante poter integrare i modelli sviluppati dai data scientist nel prodotto. Può essere estremamente difficile integrare i modelli sviluppati in Python con un'applicazione Web che funziona su Ruby. Inoltre, i modelli potrebbero avere molte dipendenze di dati che il prodotto potrebbe non essere in grado di fornire.


Un modo per gestirlo è creare una solida infrastruttura attorno al modello ed esporre le funzionalità sufficienti necessarie per il prodotto al fine di utilizzare il modello come "servizio Web". Ad esempio, se l'applicazione richiede una classificazione dei sentimenti sulle recensioni dei prodotti , tutto ciò che dovrebbe fare è invocare il servizio web, fornendo il relativo e il servizio restituirebbe la classificazione di sentimento appropriata che il prodotto può usare direttamente. In questo modo l'integrazione è semplicemente sotto forma di una chiamata API. Il disaccoppiamento del modello e del prodotto che lo utilizza rende davvero facile per i nuovi prodotti che ti vengono in mente di utilizzare questi modelli con poca seccatura.

Ora, l'installazione dell'infrastruttura attorno al modello è un'altra storia e richiede un investimento iniziale pesante da parte dei team di progettazione. Una volta che l'infrastruttura è presente, è solo una questione di costruzione di modelli in un modo che si adatti all'infrastruttura.