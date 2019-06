SENTI CHI PARLA - FACEBOOK È RIUSCITO A CLONARE LA VOCE DI BILL GATES, RIUSCENDO A FAR PRONUNCIARE A UN'INTELLIGENZA ARTIFICIALE FRASI SENZA SENSO IN MANIERA ESTREMAMENTE CONVINCENTE - E SU INSTAGRAM UN’AGENZIA PUBBLICITARIA LANCIA UN FINTO VIDEO DI MARK ZUCKERBERG CHE PRONUNCIA UN SINISTRO DISCORSO SUL POTERE DI FACEBOOK. UN ''DEEPFAKE'' PER DIMOSTRARE CHE SI PUO' FAR DIRE QUALUNQUE COSA A CHIUNQUE...

Negli ultimi anni le voci degli assistenti virtuali, da Siri ad Alexa, da Cortana a Google Assistant, hanno fatto passi da giganti. Sono sempre meno robotiche, sempre più simili alla voce umana e sempre più capaci di usare pause e toni differenti tipici delle inflessioni della lingua che stanno parlando.

AllaWWDC della scorsa settimana Apple ha annunciato ad esempio che Siri, a partire da iOS 13, avrà una nuova voce grazie a una tecnologia di sintesi vocale chiamata “Neural Text-to-Speech”. Per il suo Assistant, Google utilizza invece la tecnologia Wavenet sviluppata dalla sua controllata DeepMind.

Un nuovo modello messo a punto da Facebook, MelNet, promette risultati ancora migliori e avanzati rispetto alle soluzioni concorrenti. Così avanzati da riuscire addirittura a clonare in maniera impeccabile le voci di personaggi famosi.

Tra questi anche Bill Gates, cui l’intelligenza artificiale è riuscita a far pronunciare frasi senza senso in maniera estremamente convincente. I risultati si possono ascoltarei n questa pagina , alla sezione “selected speakers”. Sono campioni estremamente convincenti, che riproducono in maniera sorprendente anche le minime particolarità del tono e dell’accento di chi parla.

Come le soluzioni concorrenti anche MelNet si basa sul Machine Learning e sull’analisi di una grande quantità di campioni. Ma a differenza di WaveNet, che pure è considerata una delle soluzioni più avanzate, la tecnologia di Facebook non analizza la forma d’onda dei campioni audio bensì il loro spettrogramma. In questo modo, spiegano i ricercatori nell’articolo scientifico con cui descrivono la tecnologia, l’Intelligenza Artificiale riesce a carpire e poi a riprodurre algoritmicamente quelle piccole sfumature di una voce che il nostro cervello è abituato ad interpretare senza che ce ne accorgiamo.

Per “clonare” le voci di Bill Gates e di altre famose personalità dell’ambito scientifico, i ricercatori di Facebook hanno utilizzato centinaia di ore di parlato dall’archivio del ciclo di conferenze TED. C’è tuttavia un limite: MelNet (come altre tecnologie concorrenti) riesce a riprodurre in maniera convincente soprattutto frasi brevi, mentre non è in grado conferire drammaticità o enfasi a brani più lunghi come un paragrafo, il capitolo di un libro o un intero discorso.

È una buona notizia: questa tecnologia, in altre parole, non si può ancora usare per falsificare per intero il discorso di un politico o per generare lunghi testi da attribuire a personalità pubbliche. Certo, la possibilità che venga usata per generare fake news o per organizzare truffe basate sulla falsificazione della voce non si può escludere del tutto.

Le applicazioni positive, però, sono talmente promettenti che vale la pena correre il rischio. Oltre a migliorare la qualità della voce degli assistenti vocali, MelNet potrà aprire nuove frontiere nell’ambito della sintesi vocale per le persone con disturbi del linguaggio. O ancora, potrà abilitare nuove interessanti tecniche di editing audio per l’industria cinematografica o musicale.

Due artisti, Bill Poster e Daniel Howe, hanno pubblicato su Instagram un video modificato dall'intelligenza artificiale che mostra Mark Zuckerberg alle prese con un discorso. Il "finto" Zuck è praticamente uguale all'originale, anche per quanto riguarda il tono della voce.

Nel filmato Zuckerberg fa un discorso sinistro sulla potenza di Facebook, ma contrariamente a quanto avvenuto in passato, il social network di Menlo Park ha svelato che non rimuoverà il contenuto.

"Immaginate questo per un secondo: un uomo, con il controllo totale di miliardi di dati rubati alle persone, tutti i loro segreti, le loro vite, il loro futuro. Devo tutto a Spectre, Spectre mi ha mostrato che chiunque controlla i dati, controlla il futuro" afferma l'inquietante Zuckerberg nel video deep fake, che vi mostriamo in calce.

Come dicevamo poco sopra, Facebook ha scelto di non rimuovere il video. Un portavoce di Instagram, pur confermando che sarà ridimensionata la priorità della visualizzazione, ha affermato che "tratteremo questo contenuto nello stesso modo in cui trattiamo le fake enws su Instagram. Se i moderatori di terze parti lo considereranno falso, lo filtreremo dai suggerimenti di Instagram sulle pagine di ricerca ed hashtag".

Per creare il video, gli sviluppatori si sono affidati ad un'IA campionando 21 secondi del video originale, di sette minuti, che ha permesso al sistema di machine learning di capire come comportarsi e quindi effettuare il doppiaggio e sincronizzare i movimenti.

