Reinforcement Learning vs. Apprendimento di rinforzo profondo: qual è la differenza?

Contenuto

Che cos'è l'apprendimento per rinforzo?
Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita
Che cos'è l'apprendimento di rinforzo profondo?

Porta via:

Siamo andati dagli esperti e abbiamo chiesto loro di rispondere alle importanti differenze tra apprendimento di rinforzo e apprendimento di rinforzo profondo

Gli algoritmi di machine learning possono semplificare la vita e il lavoro, liberandoci da attività ridondanti mentre lavoriamo più velocemente - e in modo più intelligente - rispetto a interi team di persone. Tuttavia, esistono diversi tipi di apprendimento automatico. Ad esempio, c'è l'apprendimento per rinforzo e l'apprendimento per rinforzo profondo.

"Anche se l'apprendimento per rinforzo e l'apprendimento per rinforzo profondo sono entrambe tecniche di apprendimento automatico che apprendono in modo autonomo, ci sono alcune differenze", afferma il Dr. Kiho Lim, assistente professore di informatica alla William Paterson University di Wayne, New Jersey. "L'apprendimento per rinforzo sta imparando dinamicamente con un metodo di prova ed errore per massimizzare il risultato, mentre l'apprendimento per rinforzo profondo sta imparando dalle conoscenze esistenti e applicandolo a un nuovo set di dati."

Ma cosa significa quello esattamente? Siamo andati dagli esperti e abbiamo chiesto loro di fornire molti esempi!

Che cos'è l'apprendimento per rinforzo?

Come dice Lim, l'apprendimento per rinforzo è la pratica dell'apprendimento per prove ed errori - e per la pratica. "In questa disciplina, un modello impara nella distribuzione venendo progressivamente premiato per una previsione corretta e penalizzato per previsioni errate", secondo Hunaid Hameed, apprendista scienziato di dati presso Data Science Dojo a Redmond, WA. (Leggi l'apprendimento per rinforzo può dare una piacevole svolta dinamica al marketing.)

"L'apprendimento di rinforzo è comunemente visto nei giochi di intelligenza artificiale e migliora nel gioco nel tempo."

Le tre componenti essenziali dell'apprendimento per rinforzo sono un agente, un'azione e una ricompensa. "L'apprendimento per rinforzo aderisce a una metodologia specifica e determina i mezzi migliori per ottenere il miglior risultato", secondo il dott. Ankur Taly, responsabile della scienza dei dati presso Fiddler Labs a Mountain View, in California. "È molto simile alla struttura di come giochiamo a un videogioco, in cui il personaggio (agente) si impegna in una serie di prove (azioni) per ottenere il punteggio più alto (ricompensa)."

Tuttavia, è un sistema autonomo di autoapprendimento. Usando l'esempio del videogioco, Taly afferma che le ricompense positive possono derivare dall'aumentare il punteggio o i punti e che le ricompense negative possono derivare dal correre ostacoli o fare mosse sfavorevoli.

Chris Nicholson, CEO di San Francisco, con sede a Skymind, in California, si basa sull'esempio di come gli algoritmi apprendono da prove ed errori. "Immagina di giocare a Super Mario Brothers per la prima volta e di provare a scoprire come vincere: esplori lo spazio, ti chini, salti, colpisci una moneta, atterri su una tartaruga e poi vedi cosa succede. "

Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

Imparando le buone azioni e le cattive azioni, il gioco ti insegna come comportarti. "L'apprendimento per rinforzo lo fa in qualsiasi situazione: videogiochi, giochi da tavolo, simulazioni di casi d'uso reali." In effetti, Nicholson afferma che la sua organizzazione utilizza l'apprendimento per rinforzo e simulazioni per aiutare le aziende a capire il miglior percorso decisionale in una situazione complessa.

Nell'apprendimento per rinforzo, un agente prende diverse decisioni minori per raggiungere un obiettivo più ampio. Ancora un altro esempio è insegnare a un robot a camminare. "Invece di indicazioni codificanti per sollevare un piede, piegare il ginocchio, posarlo e così via, un approccio di apprendimento di rinforzo potrebbe avere l'esperimento del robot con diverse sequenze di movimenti e scoprire quali combinazioni hanno più successo nel realizzarlo andare avanti ", afferma Stephen Bailey, scienziato di dati ed esperto di strumenti di analisi presso Immuta a College Park, MD.

Oltre ai videogiochi e alla robotica, ci sono altri esempi che possono aiutare a spiegare come funziona l'apprendimento per rinforzo. Brandon Haynie, capo scienziato di dati di Babel Street a Washington, DC, lo confronta con un umano che impara a guidare una bicicletta. "Se sei fermo e sollevi i piedi senza pedalare, una caduta - o una penalità - è imminente."

Tuttavia, se inizi a pedalare, rimarrai sulla bici - ricompensa - e passerai allo stato successivo.

"L'apprendimento per rinforzo ha applicazioni che coprono diversi settori, tra cui decisioni finanziarie, chimica, manifatturiera e, naturalmente, robotica", afferma Haynie.

Che cos'è l'apprendimento di rinforzo profondo?

Tuttavia, è possibile che le decisioni diventino troppo complesse per l'approccio dell'apprendimento rafforzato. Haynie afferma che può essere schiacciante che l'algoritmo apprenda da tutti gli stati e determini il percorso della ricompensa. "Qui è dove l'apprendimento approfondito del rinforzo può aiutare: la parte" profonda "si riferisce all'applicazione di una rete neurale per stimare gli stati invece di dover mappare ogni soluzione, creando uno spazio di soluzione più gestibile nel processo decisionale."

Non è un nuovo concetto. Haynie afferma che esiste dagli anni '70. "Ma con l'avvento dell'informatica economica e potente, i vantaggi aggiuntivi delle reti neurali possono ora aiutare ad affrontare le aree per ridurre la complessità di una soluzione", spiega. (Leggi Qual è la differenza tra intelligenza artificiale e reti neurali?)

Quindi, come funziona? Secondo Peter MacKenzie, responsabile del team AI, Americhe a Teradata, sono troppe informazioni da archiviare nelle tabelle e i metodi tabulari richiederebbero all'agente di visitare ogni stato e combinazione di azione.

Tuttavia, l'apprendimento approfondito del rinforzo sostituisce i metodi tabulari di stima dei valori di stato con l'approssimazione delle funzioni. "L'approssimazione delle funzioni non solo elimina la necessità di memorizzare tutte le coppie di stati e valori in una tabella, ma consente all'agente di generalizzare il valore di stati che non ha mai visto prima, o di avere informazioni parziali, usando i valori di stati simili", Dice MacKenzie.

"Gran parte degli entusiasmanti progressi nell'apprendimento approfondito del rinforzo sono avvenuti grazie alla forte capacità delle reti neurali di generalizzare attraverso enormi spazi statali." E MacKenzie nota che l'apprendimento approfondito del rinforzo è stato utilizzato in programmi che hanno battuto alcuni dei migliori concorrenti umani in giochi come Chess and Go e sono anche responsabili di molti progressi nella robotica. (Leggi 7 donne leader in AI, Machine Learning e Robotica.)

Bailey concorda e aggiunge: "All'inizio di quest'anno, un agente di AI chiamato AlphaStar ha battuto il miglior giocatore di StarCraft II al mondo - e questo è particolarmente interessante perché a differenza di giochi come Chess and Go, i giocatori di StarCraft non sanno cosa sta facendo il loro avversario." Invece, dice che dovevano fare una strategia iniziale e poi adattarsi mentre scoprivano cosa stava pianificando il loro avversario.

Ma come è possibile? Se un modello ha una rete neurale di più di cinque livelli, Hameed afferma che ha la capacità di soddisfare dati ad alta dimensione. "Per questo motivo, il modello può imparare a identificare i modelli da solo senza avere un ingegnere umano a curare e selezionare le variabili che dovrebbero essere inserite nel modello per imparare", spiega.

In scenari aperti, puoi davvero vedere la bellezza dell'apprendimento di rinforzo profondo. Taly utilizza l'esempio di prenotare un tavolo in un ristorante o di effettuare un ordine per un articolo - situazioni in cui l'agente deve rispondere a qualsiasi input dall'altra parte.

"L'apprendimento approfondito del rinforzo può essere utilizzato per addestrare un agente conversazionale direttamente dal segnale audio o dall'altra estremità", afferma. "Quando si utilizza un segnale audio, l'agente può anche imparare a cogliere segnali sottili nell'audio come pause, intonazione, eccetera - questo è il potere dell'apprendimento di rinforzo profondo."

E continuano ad emergere nuove applicazioni di apprendimento approfondito di rinforzo. Nel determinare la migliore azione successiva per interagire con un cliente, MacKenzie afferma che "lo stato e le azioni potrebbero includere tutte le combinazioni di prodotti, offerte e messaggistica su tutti i diversi canali, ognuno dei quali personalizzato: parole, immagini, colori, caratteri".

Un altro esempio è l'ottimizzazione della catena di approvvigionamento, ad esempio la consegna di prodotti deperibili negli Stati Uniti. "I possibili stati includono la posizione attuale di tutti i diversi tipi di trasporto, l'inventario in tutti gli impianti, magazzini e punti vendita e le previsioni della domanda per tutti i negozi ", dice MacKenzie.

"L'uso del deep learning per rappresentare lo stato e lo spazio d'azione consente all'agente di prendere migliori decisioni logistiche che si traducono in spedizioni più tempestive a un costo inferiore."