Contenuto
- Definizione - Cosa significa Apache Pig?
- Un'introduzione a Microsoft Azure e Microsoft Cloud | In questa guida imparerai cos'è il cloud computing e in che modo Microsoft Azure può aiutarti a migrare e gestire la tua azienda dal cloud.
- Techopedia spiega Apache Pig
Definizione - Cosa significa Apache Pig?
Apache Pig è una piattaforma utilizzata per analizzare set di dati di grandi dimensioni. Consiste in un linguaggio di alto livello per esprimere i programmi di analisi dei dati, insieme all'infrastruttura per valutare questi programmi. Una delle caratteristiche più significative di Pig è che la sua struttura risponde a una significativa parallelizzazione.
Pig opera sulla piattaforma Hadoop, scrivendo e leggendo dati da Hadoop Distributed File System (HDFS) ed eseguendo l'elaborazione mediante uno o più lavori MapReduce. Apache Pig è disponibile come open source.
Apache Pig è anche noto come Pig Programming Language o Hadoop Pig.
Un'introduzione a Microsoft Azure e Microsoft Cloud | In questa guida imparerai cos'è il cloud computing e in che modo Microsoft Azure può aiutarti a migrare e gestire la tua azienda dal cloud.
Techopedia spiega Apache Pig
Apache Pig ha due parti: lingua latina Pig e motore Pig. La lingua latina Pig è un linguaggio di scripting che consente agli utenti di illustrare il modo in cui il flusso di dati da uno o più input deve essere letto ed elaborato e la posizione in cui devono essere memorizzati.
Alcune delle proprietà chiave di Pig Latin sono le seguenti:
- Facile da programmare: attività complesse costituite da varie trasformazioni di dati interconnesse sono chiaramente codificate come sequenze di flussi di dati. Questo li rende semplici da scrivere, comprendere e mantenere.
- Possibilità di ottimizzazione: il modo in cui le attività sono codificate consente al sistema di ottimizzare l'esecuzione automatica. Ciò consente all'utente di prestare attenzione alla semantica anziché all'efficienza.
- Estensibilità: gli utenti sono autorizzati a creare le proprie funzioni per l'esecuzione di elaborazioni speciali. Il motore Pig è responsabile dell'esecuzione del flusso di dati scritto in latino Latino. Proprio come un progetto di sistema di gestione di database relazionali standard (RDBMS), Apache Pig è costituito da un parser, un ottimizzatore e un controllo del tipo, oltre agli operatori che eseguono l'elaborazione dei dati. Il maiale non include le transazioni, un catalogo di dati o la capacità di gestire direttamente la memorizzazione dei dati o di utilizzare il framework di esecuzione.