I Hear Dead People? La tecnologia del linguaggio naturale rende vive le voci passate e presenti

Autore: Judy Howell
Data Della Creazione: 5 Luglio 2021
Data Di Aggiornamento: 13 Maggio 2024
Anonim
SEGNO PREMONITORE | NUOVO VIDEO
Video: SEGNO PREMONITORE | NUOVO VIDEO

Contenuto


Porta via:

Dimentica le voci in scatola; riprodurre quelli reali è il nuovo obiettivo per l'elaborazione del linguaggio naturale.

In questi giorni, la maggior parte delle voci di computer sono passate. Probabilmente non ti ecciti troppo per cyborg e robot quando senti il ​​"droide" sul tuo telefono che ti aiuta con un pagamento della bolletta o ti chiede quale dipartimento vuoi. E se all'improvviso hai sentito Kurt Cobain che ti chiedeva informazioni sulla carta? O John F. Kennedy ti parla delle meraviglie del voto anticipato? O Elvis ottenere il tuo nome e indirizzo prima di entrare in "un pezzo, un pezzo di amore ardente?"

Tutti questi sarebbero ... un po 'strani, ma la cosa ancora più affascinante è che la tecnologia è praticamente già qui. Solo una decina di anni fa, siamo rimasti sorpresi dalla capacità dei computer di persino parlare. Ora, stiamo per essere pavimentati da voci generate dal computer che suonano liberamente e che suonano proprio come la gente che conosciamo.

Grandi cambiamenti nella PNL

Se stai prestando attenzione al campo dell'elaborazione del linguaggio naturale (NLP), potresti aver sentito parlare di alcuni recenti progressi che vanno oltre i tipi di voci di assistente virtuali in scatola che ora ascoltiamo nei nostri sistemi di posizionamento globale (GPS) e nelle attività automatizzate linee telefoniche.

L'inizio della PNL ha richiesto molte ricerche sulla meccanica generale del linguaggio umano. I ricercatori e gli ingegneri hanno dovuto identificare la fonetica individuale, piegarli in algoritmi più grandi per generare frasi e frasi, quindi provare a gestirli tutti a un livello meta per generare qualcosa che suonasse reale. Nel tempo, i leader della PNL hanno imparato questo e hanno iniziato a costruire algoritmi avanzati per capire cosa dicono gli umani. Mettendo insieme questi due, le aziende hanno trovato i driver per gli assistenti virtuali di oggi e gli impiegati completamente digitali, i cui manierismi - sebbene fastidiosi - sono ancora sorprendenti quando ti fermi a pensare al lavoro che li ha condotti.

Ora, alcune aziende stanno andando oltre la voce virtuale generica per mettere insieme un risultato personalizzato più specifico. Ciò richiede l'esame del lessico di una persona in particolare e la raccolta di grandi quantità di video vocali unici, quindi l'applicazione di questo archivio ai ritmi complessi di fonetica, enfasi, cadenza e tutti gli altri piccoli segnali che i linguisti spesso raggruppano sotto l'ampio vessillo di "prosodia".

Ciò che viene fuori è una voce che gli ascoltatori considerano "posseduta" da una determinata persona - qualcuno che conoscono e con cui hanno parlato, o qualcuno la cui voce riconoscono come risultato della fama delle persone.

Da Elvis a Martin Luther King, la voce di chiunque può ora essere "clonata" in questo modo - a condizione che vi sia una notevole registrazione preregistrata del proprio discorso. Applicando analisi e manipolazioni ancora più dettagliate ai singoli piccoli suoni, le aziende sono in grado di creare una copia carbone virtuale della voce di qualcuno che suona in modo molto simile alla realtà.

Emozionanti creazioni "alla voce" su Vivo

Vivo, ad esempio, è un'azienda che sta lavorando per rivoluzionare l'uso di voci umane artificiali per tutti i tipi di campagne, dagli audiolibri alla risposta vocale interattiva (IVR). In Vivo, i team di ricerca e produzione stanno lavorando su processi che, teoricamente, potrebbero replicare in modo specifico le voci delle celebrità decedute, come lo stesso Ol Blue Eyes.

"Per clonare la voce di Frank Sinatra, passeremmo attraverso la sua eredità registrata", afferma Gershon Silbert, CEO di Vivo, parlando di come questo tipo di tecnologia potrebbe funzionare.

In questo momento, Vivo sta lavorando all'archiviazione delle voci di coloro che sono ancora con noi, come il corrispondente NPR Conan, che ha firmato come modello per questo tipo di progetto pionieristico IT. Un video promozionale mostra i lavoratori di Vivo che creano scrupolosamente moduli di codice fonetico utilizzando l'input vocale fornito da Conan. Quindi creano i modelli per strumenti di sintesi vocale (TTS) che evocano un risultato drammaticamente umano e personificato.

Secondo Ben Feibleman, vicepresidente della strategia e dello sviluppo aziendale di Vivo, il computer lavora a livello di fonemi (utilizzando le più piccole parti uniche del discorso) per conformarsi a un modello prosodico per una singola voce umana.

"Sa come parla la voce", dice Feibleman, aggiungendo che usando "selezione unità", il computer sceglie un numero di pezzi per mettere insieme una singola parola breve, come dove la parola "Venerdì" viene data cinque componenti che aiutano a sviluppare una particolare enfasi e risultato tonale.

Voce artificiale nel marketing

Quindi, come funziona nel marketing? I prodotti di Vivo potrebbero essere estremamente utili nella creazione di prodotti, come gli audiolibri, che potrebbero raggiungere il pubblico di destinazione. Ad esempio, quanto più efficace sarebbe una voce Elvis rispetto a una delle voci generiche, deadpan, automatiche odierne se venisse utilizzata per vendere prodotti legati all'intrattenimento?

Oppure, che ne dici di politica? Feibleman ha lavorato su varie idee per l'utilizzo di progetti come questi per migliorare il marketing per le aziende o altre parti che necessitano di una messaggistica più efficace.

"Se conosci qualche politico candidato alla presidenza, questo potrebbe far sì che 10 milioni di elettori dello stato swing ricevano una chiamata personale da un candidato, ringraziandoli per il loro sostegno, dicendo loro dove devono andare per votare, il tempo e tutte le guarnizioni la notte prima delle elezioni ", ha detto Feibleman.

La tua voce è viva

C'è un'altra ovvia applicazione a tutta questa tecnologia. Le aziende di linguaggio naturale come Vivo potrebbero creare un servizio personale in grado di caricare tutti i dati vocali di un cliente in un prodotto che consentirebbe a quella persona di "parlare per sempre".

L'implementazione pratica solleverebbe probabilmente una serie di domande su come ascoltiamo e interiorizziamo le voci parlate. Ad esempio, cosa serve per far sembrare un flusso audio esattamente come qualcuno? Quanto dobbiamo conoscere una persona per riconoscere una voce particolare? E, cosa interessante, cosa succede se un servizio di linguaggio naturale produce una caricatura grezza, piuttosto che un imitativo convincente?

La valutazione dei risultati, afferma Feibleman, dipende spesso dalla considerazione del con. Ad esempio, afferma che i bambini di solito non fanno domande su chi sta parlando quando ascoltano una storia. Vogliono solo di più. Inoltre, molti adulti potrebbero non pensare a chi sta parlando con loro, dato uno scenario particolare, come una trasmissione passiva o un telefono. Inoltre, è più facile essere ingannati da un computer al telefono perché il suono smorzato può mascherare anomalie o altre discrepanze tra i risultati del computer e una voce umana.

"Non ti viene in mente di sfidare l'autenticità della voce", afferma Feibleman.

Nell'anno 2525

Mentre le aziende avanzano nello sviluppo di prodotti e servizi e rispondendo a queste domande, le tecnologie del "linguaggio vivente" potrebbero farci avanzare verso quella convergenza di tecnologia e mente umana, che è stata classicamente chiamata intelligenza artificiale (AI).

Se i computer possono parlare come noi, potrebbero essere in grado di indurre altri utenti a pensare di pensare come noi, alimentando il più ampio principio di singolarità, come introdotto nel nostro lessico da John von Neumann, un pioniere della tecnologia degli anni '50 evangelizzato dagli scrittori e pensatori come Ray Kurzweil. Il libro di Kurzweils del 2005, "The Singularity Is Near", eccita alcuni e spaventa gli altri. Kurzweil ha previsto che entro il 2045 l '"intelligenza" come fenomeno diventerà fortemente non legata dal cervello umano e migrerà nella tecnologia, confondendo le linee tra le macchine e i loro padroni umani.

Immortalato nei testi di Zager & Evans "In the Year 2525" (nessuno fa ballate di fantascienza inquietanti come questi ragazzi) ...

Nell'anno 4545
Non avrai bisogno dei tuoi denti, non ne avrai bisogno
i tuoi occhi
Non troverai nulla da masticare
Nessuno ti guarderà

Nell'anno 5555
Le tue braccia si piegano ai fianchi
Le tue gambe non hanno niente da fare
Alcune macchine lo fanno per te

Le voci dei computer sono un passo in questa direzione? Come nuovo modo di esternalizzare alcune delle funzioni del corpo umano (o più comunemente per simularle), questo tipo di progresso tecnologico è uno dei più grandi - e probabilmente sottostimati - progressi all'orizzonte mentre guardiamo in un futuro singolare . (Leggi di più sulla "singolarità" in I computer saranno in grado di imitare la mente umana?)