La clonazione della voce, una tecnologia che utilizza l’intelligenza artificiale (AI) per creare discorsi sintetici ma realistici, rappresenta un’innovazione con significativi benefici, ma anche con potenziali rischi. Da un lato, puĆ² offrire nuove opportunitĆ a persone con disabilitĆ vocali, permettendo loro di avere una voce sintetica personalizzata. Dall’altro, puĆ² essere utilizzata in modo malevolo per impersonare individui e frodare persone o aziende, o per creare deepfake audio capaci di diffondere disinformazione elettorale.
Per affrontare i crescenti pericoli dei deepfake audio, la Federal Trade Commission (FTC) degli Stati Uniti ha lanciato la Voice Cloning Challenge. Accademici e professionisti del settore sono stati invitati a sviluppare idee per prevenire, monitorare e valutare l’uso nefasto della clonazione vocale. Tra i vincitori del concorso, annunciati ad aprile, ci sono tre squadre che hanno affrontato il problema con approcci diversi, dimostrando la necessitĆ di una strategia multidisciplinare per contrastare i danni evolutivi causati dai deepfake audio.
Il primo progetto vincente, OriginStory, punta a validare una voce alla fonte. Il team, guidato dal professor Visar Berisha dell’Arizona State University, ha sviluppato un nuovo tipo di microfono in grado di verificare l’umanitĆ del discorso registrato al momento della creazione. Questo microfono personalizzato registra i segnali acustici come un microfono convenzionale, ma dispone anche di sensori integrati per rilevare e misurare i biosignali emessi dal corpo mentre una persona parla, come battiti cardiaci, movimenti polmonari, vibrazioni delle corde vocali e movimenti di labbra, mascella e lingua. Questa verifica viene allegata all’audio come una filigrana durante il processo di registrazione, fornendo agli ascoltatori informazioni verificabili che il discorso ĆØ stato generato da un umano.
Il secondo progetto, AI Detect, proposto da OmniSpeech, mira a utilizzare l’intelligenza artificiale per individuare voci generate dall’AI in tempo reale. L’obiettivo ĆØ inserire algoritmi di machine learning in dispositivi come telefoni e auricolari, in modo che possano distinguere le voci artificiali in tempo reale. Secondo il CEO di OmniSpeech, David Przygoda, il progetto si propone di creare un identificatore che avverta l’utente quando la voce dall’altro capo potrebbe non essere reale.
Il terzo progetto vincente, DeFake, ĆØ uno strumento AI che aggiunge piccole perturbazioni a una registrazione vocale umana, rendendo piĆ¹ difficile una clonazione precisa. Ning Zhang, professore di informatica e ingegneria alla Washington University di St. Louis, spiega che queste perturbazioni funzionano come piccoli rumori di disturbo aggiunti alla registrazione vocale umana. Quando l’AI tenta di apprendere dalla registrazione, commette errori e apprende informazioni errate. DeFake ĆØ un esempio di AI avversaria, una tecnica difensiva che attacca la capacitĆ di un modello AI di funzionare correttamente.
Sia AI Detect che DeFake sono ancora nelle fasi iniziali di ricerca e sviluppo. AI Detect ĆØ ancora concettuale, mentre DeFake necessita di miglioramenti in termini di efficienza. Przygoda e Zhang sono consapevoli dei limiti dell’uso dell’intelligenza artificiale, riconoscendo che sarĆ necessario un impegno continuo per aggiornare i dataset e la tecnologia per tenere il passo con i modelli e l’hardware utilizzati per creare deepfake. OriginStory, invece, ĆØ in fase di test per garantire che la tecnologia sia a prova di spoofing.
Secondo Nauman Dawalatabad del MIT, l’approccio di AI Detect ĆØ promettente poichĆ© opera direttamente sui dispositivi per preservare la privacy. DeFake, invece, offre una strategia preventiva simile alla filigrana, utile per proteggere i consumatori dalla frode. Tuttavia, una soluzione piĆ¹ efficace contro i deepfake audio potrebbe essere un approccio a quattro punte che combini multiple strategie: watermarking delle nuove registrazioni audio, sviluppo di migliori modelli di rilevamento, implementazione di questi modelli direttamente sui dispositivi e coinvolgimento dei policymakers per garantire la protezione dei consumatori.
I tre vincitori della Voice Cloning Challenge della FTC condivideranno un premio in denaro di 35.000 dollari. Un ulteriore riconoscimento ĆØ stato assegnato alla soluzione di Pindrop, che rileva deepfake audio in tempo reale analizzando il discorso a intervalli di due secondi. Le innovazioni presentate rappresentano passi significativi nella lotta contro l’uso malevolo della clonazione vocale, offrendo speranza per un futuro in cui la tecnologia AI puĆ² essere sfruttata in modo sicuro e responsabile.