Voce Sintetizzata – Ho “clonato” la mia voce ed anche quella di una persona a caso…magari la tua?

Voce Sintetizzata – Ho “clonato” la mia voce ed anche quella di una persona a caso…magari la tua?

Oggi ho fatto un esperimento per farmi un’idea di quanto sia complesso creare dei modelli sintetici della propria voce tramite i servizi di Intelligenza Artificiale e quanto questi possano essere accurati e fedeli.

Ottenere una voce non “robotica” che traduca il testo in suono (Il Text to Speech o anche conosciuto come TTS) è un lavoro che richiede oltre che competenze, anche del tempo. Partivo dunque con aspettative molto basse. Quello che più mi premeva verificare era la possibilità di sintetizzare la voce di qualcun altro, a sua insaputa. A quale scopo? Quello di fargli dire quello che voglio io, ma con la sua voce e senza che lui lo sappia (è un modo estremo per evidenziare un nuovo rischio derivato dal cattivo utilizzo dell’Intelligenza Artificiale).

Le premesse per realizzare un buon servizio di Text To Speech sono quelle di avere un training set adeguato, abbondante e di alta qualità. Alcuni esempi sono:

– Molte ore di registrazione (più di 8 ore per avere un qualcosa di decente)

– Nessun rumore di fondo

– Uniformità nel tono e nel ritmo della parlata per tutte le registrazioni

– Alta qualità della registrazione (no cuffiette o microfoni scadenti, ma un vero e proprio studio di registrazione)

– Un dizionario\lessico alquanto ampio con magari una focalizzazione sull’area di specializzazione del dispositivo (ad esempio in campo medico o meccatronico)

A quel punto, se dispongo di un software in grado di effettuare la sintetizzazione, basta dargli in pasto il training set, aspettare la magia ed ottimizzare il modello tramite la selezione di altri file audio, l’eliminazione di quelli che generano rumore, adeguare la velocità… ed altro ancora (salto tutto l’immenso lavoro che c’è in mezzo).

Quello qui sotto è ciò che ho ottenuto io con un training set davvero misero (20 registrazioni), effettuate con una cuffia e senza aver effettuato fine-tuning della mia soluzione. Nonostante abbia fatto del mio peggio, il mio timbro di voce è molto chiaro. Sono io, anche se parlo in maniera molto robotica.

Ecco il file audio prodotto (ripeto: 20 sample e non ho volutamente fatto ottimizzazioni di nessun tipo):

Tono e timbro della voce sono i miei! 😮

Ora viene il bello del mio esperimento: E se anziché sintetizzare la mia di voce, sintetizzassi quella di qualcun altro?

Chi non vorrebbe sentirsi dire dal proprio capo: “Ti do un bell’aumento!” oppure “Ti meriti una promozione e tre mesi di ferie pagate alle Hawaii”!?

Ho preso la palla al balzo e son andato a recuperare una vecchia registrazione di qualche minuto di una riunione fatta online con il mio capo. Ho frammentato il file per prendere solo le porzioni dove lui parlava, ne ho estratto il testo utilizzando un servizio di Speech Recognition, l’ho “ripulito, convertito, normalizzato…” e mi son così creato il mio training set anche se è molto lontano da essere utile a creare una voce realistica (solo 10 samples).

L’ho ad ogni modo dato in pasto alla piattaforma di sintetizzazione e….nel giro di poco tempo avevo il mio modello pronto per essere testato. Potevo farmi dire dal mio capo, quello che volevo!!!

Ecco il primo risultato che è chiaramente derivato da un training set “sporco” e poco utilizzabile:

Ora… il mio ha solo voluto essere un esperimento ed un gioco, ma se un domani venisse rilasciato uno strumento ad alta precisione che permettesse a chiunque di caricare una registrazione audio e generare dei modelli sintetizzati, la situazione potrebbe diventare poco piacevole. Così come potrebbe diventare molto utile per persone che vengono improvvisamente colpite da malattie che non permettono più loro di comunicare utilizzando la propria voce.

Siamo ancora lontani dallo scenario qui sopra (soprattutto per rendere la voce davvero naturale con un training set inappropriato), credo però che “la voce” sia un qualcosa che debba essere normata in qualche modo per evitare plagi.

Che io sappia, l’impronta Vocale è un qualcosa che ad oggi non è tutelata da norme di copyright. E’ forse il caso che si inizi a regolamentare anche questo aspetto per evitare spiacevoli attacchi di Phishing vocale e utilizzo improprio della tecnologia.

Quindi per il momento state tranquilli: non vi posso clonare…non ancora 🙂

Condividi: