La clonazione della voce, una tecnologia che utilizza l’intelligenza artificiale (AI) per creare discorsi sintetici ma realistici, rappresenta un’innovazione con significativi benefici, ma anche con potenziali rischi. Da un lato, può offrire nuove opportunità a persone con disabilità vocali, permettendo loro di avere una voce sintetica personalizzata. Dall’altro, può essere utilizzata in modo malevolo per impersonare individui e frodare persone o aziende, o per creare deepfake audio capaci di diffondere disinformazione elettorale.
Per affrontare i crescenti pericoli dei deepfake audio, la Federal Trade Commission (FTC) degli Stati Uniti ha lanciato la Voice Cloning Challenge. Accademici e professionisti del settore sono stati invitati a sviluppare idee per prevenire, monitorare e valutare l’uso nefasto della clonazione vocale. Tra i vincitori del concorso, annunciati ad aprile, ci sono tre squadre che hanno affrontato il problema con approcci diversi, dimostrando la necessità di una strategia multidisciplinare per contrastare i danni evolutivi causati dai deepfake audio.
Il primo progetto vincente, OriginStory, punta a validare una voce alla fonte. Il team, guidato dal professor Visar Berisha dell’Arizona State University, ha sviluppato un nuovo tipo di microfono in grado di verificare l’umanità del discorso registrato al momento della creazione. Questo microfono personalizzato registra i segnali acustici come un microfono convenzionale, ma dispone anche di sensori integrati per rilevare e misurare i biosignali emessi dal corpo mentre una persona parla, come battiti cardiaci, movimenti polmonari, vibrazioni delle corde vocali e movimenti di labbra, mascella e lingua. Questa verifica viene allegata all’audio come una filigrana durante il processo di registrazione, fornendo agli ascoltatori informazioni verificabili che il discorso è stato generato da un umano.
Il secondo progetto, AI Detect, proposto da OmniSpeech, mira a utilizzare l’intelligenza artificiale per individuare voci generate dall’AI in tempo reale. L’obiettivo è inserire algoritmi di machine learning in dispositivi come telefoni e auricolari, in modo che possano distinguere le voci artificiali in tempo reale. Secondo il CEO di OmniSpeech, David Przygoda, il progetto si propone di creare un identificatore che avverta l’utente quando la voce dall’altro capo potrebbe non essere reale.
Il terzo progetto vincente, DeFake, è uno strumento AI che aggiunge piccole perturbazioni a una registrazione vocale umana, rendendo più difficile una clonazione precisa. Ning Zhang, professore di informatica e ingegneria alla Washington University di St. Louis, spiega che queste perturbazioni funzionano come piccoli rumori di disturbo aggiunti alla registrazione vocale umana. Quando l’AI tenta di apprendere dalla registrazione, commette errori e apprende informazioni errate. DeFake è un esempio di AI avversaria, una tecnica difensiva che attacca la capacità di un modello AI di funzionare correttamente.
Sia AI Detect che DeFake sono ancora nelle fasi iniziali di ricerca e sviluppo. AI Detect è ancora concettuale, mentre DeFake necessita di miglioramenti in termini di efficienza. Przygoda e Zhang sono consapevoli dei limiti dell’uso dell’intelligenza artificiale, riconoscendo che sarà necessario un impegno continuo per aggiornare i dataset e la tecnologia per tenere il passo con i modelli e l’hardware utilizzati per creare deepfake. OriginStory, invece, è in fase di test per garantire che la tecnologia sia a prova di spoofing.
Secondo Nauman Dawalatabad del MIT, l’approccio di AI Detect è promettente poiché opera direttamente sui dispositivi per preservare la privacy. DeFake, invece, offre una strategia preventiva simile alla filigrana, utile per proteggere i consumatori dalla frode. Tuttavia, una soluzione più efficace contro i deepfake audio potrebbe essere un approccio a quattro punte che combini multiple strategie: watermarking delle nuove registrazioni audio, sviluppo di migliori modelli di rilevamento, implementazione di questi modelli direttamente sui dispositivi e coinvolgimento dei policymakers per garantire la protezione dei consumatori.
I tre vincitori della Voice Cloning Challenge della FTC condivideranno un premio in denaro di 35.000 dollari. Un ulteriore riconoscimento è stato assegnato alla soluzione di Pindrop, che rileva deepfake audio in tempo reale analizzando il discorso a intervalli di due secondi. Le innovazioni presentate rappresentano passi significativi nella lotta contro l’uso malevolo della clonazione vocale, offrendo speranza per un futuro in cui la tecnologia AI può essere sfruttata in modo sicuro e responsabile.