7 passaggi per l'apprendimento del data mining e della data science

Autore: Eugene Taylor
Data Della Creazione: 12 Agosto 2021
Data Di Aggiornamento: 22 Giugno 2024
Anonim
7 passaggi per l'apprendimento del data mining e della data science - Tecnologia
7 passaggi per l'apprendimento del data mining e della data science - Tecnologia

Contenuto


Fonte: Paul Fleet / Dreamstime.com

Porta via:

La scienza dei dati si impara meglio facendo, ma anche una buona base di statistica e apprendimento automatico è importante.

Mi viene spesso chiesto come apprendere il data mining e la scienza dei dati. Ecco il mio riassunto.

Puoi apprendere meglio il data mining e la scienza dei dati facendo, quindi inizia ad analizzare i dati il ​​prima possibile! Tuttavia, non dimenticare di apprendere la teoria, poiché hai bisogno di una buona base statistica e di apprendimento automatico per capire cosa stai facendo e trovare veri e propri pepite di valore nel rumore dei big data.

Ecco sette passaggi per l'apprendimento del data mining e della scienza dei dati. Sebbene siano numerati, puoi eseguirli in parallelo o in un ordine diverso.

  1. Lingue: Impara R, Python e SQL
  2. Strumenti: scopri come utilizzare gli strumenti di visualizzazione e data mining
  3. libri: leggi i libri introduttivi per comprendere i fondamenti
  4. Istruzione: guardare webinar, seguire corsi e prendere in considerazione un certificato o una laurea in scienza dei dati (Leggi di più su Ben Loricas Come coltivare uno scienziato di dati.)
  5. Dati: controlla le risorse di dati disponibili e trova qualcosa lì
  6. Concorsi: partecipare a concorsi di data mining
  7. Interagisci con altri data scientist, tramite social network, gruppi e riunioni

In questo articolo, uso il data mining e la scienza dei dati in modo intercambiabile. Guarda la mia presentazione, Panoramica del settore Analytics, dove guardo l'evoluzione e la popolarità di termini diversi come statistica, scoperta della conoscenza, data mining, analisi predittiva, scienza dei dati e big data.


1. Apprendimento delle lingue

Un recente sondaggio di KDnuggets ha rilevato che le lingue più popolari per il data mining sono R, Python e SQL. Esistono molte risorse per ciascuna, ad esempio:

  • E-book gratuito su Data Science con R
  • Introduzione a Python For Data Science
  • Python per l'analisi dei dati: strumenti agili per dati reali
  • Un pitone indispensabile: l'approvvigionamento di dati per la scienza dei dati
  • W3 Schools Learning SQL

2. Strumenti: Data mining, Data Science e software di visualizzazione

Esistono molti strumenti di data mining per diverse attività, ma è meglio imparare come utilizzare una suite di data mining che supporti l'intero processo di analisi dei dati. Puoi iniziare con strumenti open source (gratuiti) come KNIME, RapidMiner e Weka.

Tuttavia, per molti lavori di analisi è necessario conoscere SAS, che è lo strumento commerciale leader e ampiamente utilizzato. Altri popolari software di analisi e data mining includono MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler e Rattle.


Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

La visualizzazione è una parte essenziale di qualsiasi analisi dei dati. Scopri come utilizzare Microsoft Excel (utile per molte attività più semplici), la grafica R, (in particolare ggplot2) e anche Tableau, un pacchetto eccellente per la visualizzazione. Altri buoni strumenti di visualizzazione includono TIBCO Spotfire e Miner3D.

3. libri

Sono disponibili molti libri di data mining e data science, ma puoi verificarli:

  • Data mining e analisi: concetti e algoritmi fondamentali, download PDF gratuito (bozza), di Mohammed Zaki e Wagner Meira Jr.
  • Data mining: strumenti e tecniche di apprendimento automatico pratico, di Ian Witten, Eibe Frank e Mark Hall, degli autori di Weka, e l'utilizzo estensivo di Weka negli esempi
  • The Elements of Statistical Learning, Data Mining, Inference and Prediction, di Trevor Hastie, Robert Tibshirani, Jerome Friedman. Un'ottima introduzione per gli orientati matematicamente
  • LIONbook: Apprendimento e ottimizzazione intelligente, di Roberto Battiti e Mauro Brunato, disponibili gratuitamente sul Web, capitolo per capitolo
  • Estrazione mineraria del libro di set di dati di massa, di A. Rajaraman, J. Ullman
  • Il libro StatSoft Electronic Statistics (gratuito) include numerosi argomenti di data mining

4. Istruzione: webinar, corsi, certificati e lauree

Puoi iniziare guardando alcuni dei molti webinar e webcast gratuiti sugli ultimi argomenti di analisi, big data, data mining e data science.

Ci sono anche molti corsi online, brevi e lunghi, molti dei quali gratuiti. (Vedi la directory di istruzione online di KDnuggets.)

Controlla in particolare questi corsi:

  • Machine Learning, a Coursera, tenuto da Andrew Ng
  • Apprendimento da Data presso edX, tenuto dal professore di Caltech Yaser Abu-Mostafa
  • Corso online aperto in scienza dei dati applicati, da Syracuse iSchool
  • Data mining con Weka, corso online gratuito
  • Consulta anche le diapositive online gratuite del mio corso di data mining, un corso introduttivo di data mining di semestre

Infine, prendi in considerazione la possibilità di ottenere certificati in data mining, data science o titoli avanzati, come un master in data science.

5. Dati

Avrai bisogno di dati da analizzare - vedi la directory KDnuggets dei set di dati per il data mining, tra cui:

  • Siti e portali di dati governativi, federali, statali, cittadini, locali e pubblici
  • API di dati, hub, mercati, piattaforme, portali e motori di ricerca
  • Set di dati pubblici gratuiti

6. Competizioni

Ancora una volta, imparerai meglio facendo, quindi partecipa alle competizioni di Kaggle. Inizia con le competizioni per principianti, come la previsione della sopravvivenza titanica usando l'apprendimento automatico.

7. Interagisci: riunioni, gruppi e social network

Puoi unirti a molti gruppi di colleghi. Scopri i 30 principali gruppi LinkedIn per Analytics, Big Data, Data Mining e Data Science.

AnalyticBridge è una community attiva per l'analisi e la scienza dei dati.

Puoi partecipare ad alcune delle numerose riunioni e conferenze su analisi, big data, data mining, data science e knowledge discovery.

Inoltre, prendi in considerazione l'adesione all'ACM SIGKDD, che organizza la conferenza annuale KDD, la principale conferenza di ricerca nel settore.

Questo articolo è pubblicato da KDNuggets.com. È stato utilizzato con il permesso dell'autore.