L’ultimo aggiornamento di OpenAI garantisce a ChatGPT nuove e potenti abilità che vanno oltre il testo interattivo. Ora può raccontare favole della buonanotte con la voce di chiunque, identificare oggetti nelle foto e rispondere alle registrazioni audio. Queste capacità rappresentano la nuova grande innovazione dell’intelligenza artificiale: i modelli multimodali. “Il multimodale è la prossima generazione di questi modelli di grandi dimensioni, in cui può elaborare non solo testo, ma anche immagini, audio, video e persino altre modalità”, afferma Linxi “Jim” Fan, ricercatore senior sull’intelligenza artificiale presso Nvidia. L’aggiornamento di ChatGPT è un esempio degno di nota di un sistema di intelligenza artificiale multimodale. Invece di utilizzare un singolo modello di intelligenza artificiale progettato per funzionare con un’unica forma di input, come un modello linguistico di grandi dimensioni (LLM) o un modello da parlato a voce, più modelli lavorano insieme per creare uno strumento di intelligenza artificiale più coeso. Gli utenti possono sollecitare il chatbot con immagini o voce, nonché ricevere risposte in una delle cinque voci generate dall’intelligenza artificiale. L’input delle immagini è disponibile su tutte le piattaforme, mentre la voce è limitata all’app ChatGPT per Android e iOS.
Una demo pubblica di OpenAI mostra che ChatGPT, ad esempio, viene utilizzato anche per delineare le modalità di regolazione del sedile di una bicicletta. Un ciclista confuso prima scatta una foto della sua bicicletta e poi chiede aiuto per abbassare il sedile. Scatterà alcune foto del manuale d’uso della bicicletta e di un set di attrezzi. ChatGPT risponde con un testo che descrive lo strumento migliore per il lavoro e come utilizzarlo.
Queste funzionalità multimodali non sono del tutto nuove. GPT-4 è stato lanciato con la comprensione dei contenuti delle immagini già nel marzo 2023, cosa che è stata messa in pratica da alcuni partner OpenAI, tra cui Bing Chat di Microsoft. Ma per sfruttare queste funzionalità era necessario l’accesso ai codici del software, che, generalmente, sono riservati a partner e sviluppatori. Ora, invece, sono disponibili per chiunque sia disposto a pagare 20 dollari al mese per un “abbonamento ChatGPT Plus”. E la loro sintesi vocale con l’interfaccia amichevole di ChatGPT è un’ulteriore innovazione. E l’inserimento di immagini è semplice: basterà aprire l’app e toccare un’icona specifica, come per scattare una foto.
Gli attuali modelli di intelligenza artificiale per immagini, video e voce sono impressionanti, ma trovare il modello giusto per ogni attività può richiedere molto tempo e spostare i dati tra i modelli è un compito ingrato. L’intelligenza artificiale multimodale elimina questi problemi: un utente può sollecitare il software di AI con vari media, quindi scorrere senza problemi tra immagini, testo e comandi vocali all’interno della stessa conversazione. “Ciò indica il futuro di questi strumenti, dove potranno fornirci quasi tutto ciò che desideriamo in questo momento”, afferma Kyle Shannon, fondatore e CEO della piattaforma video AI Storyvine. “Il futuro dell’intelligenza artificiale generativa è l’iperpersonalizzazione. Ciò accadrà per i lavoratori della conoscenza, i creativi e gli utenti finali”. Il supporto di ChatGPT per immagine e voce, quindi, è solo un assaggio di ciò che verrà. “Anche se al momento non ci sono buoni modelli per questo, in linea di principio puoi fornirgli dati 3D, o anche qualcosa come dati olfattivi digitali, e può produrre immagini, video e persino azioni”, afferma Fan e continua: “In Nvidia faccio ricerche sull’intelligenza artificiale dei giochi e sulla robotica, e i modelli multimodali sono fondamentali per questi sforzi.”
L’input di immagini e voce è l’inizio naturale delle capacità multimodali di ChatGPT. È un’app rivolta all’utente e queste sono due delle forme di dati più comuni che un utente potrebbe voler utilizzare. Ma non c’è motivo per cui un modello AI non possa addestrarsi a gestire altre forme di dati, che si tratti di un foglio di calcolo Excel, di un modello 3D o di una fotografia con dati specifici. Questo non vuol dire che il processo sarà facile. Le organizzazioni che desiderano creare un’intelligenza artificiale multimodale devono affrontare molte sfide: la più grande, forse, è discutere le ingenti somme di dati necessarie per addestrare un elenco di modelli di intelligenza artificiale.
“Penso che i modelli multimodali avranno più o meno lo stesso panorama degli attuali modelli linguistici di grandi dimensioni”, afferma Fan. “È un processo ad alta intensità di capitale. E probabilmente è anche peggio per il multimodale, perché considera quanti dati ci sono nelle immagini e nei video”. Ciò sembrerebbe dare un vantaggio a ChatGPT e ad altre startup di intelligenza artificiale già presenti nel mercato, come Anthropic, creatore di Claude.ai, che ha recentemente stipulato un accordo del valore “fino a 4 miliardi” con Amazon. Ma è troppo presto per pensare che le aziende più piccole non si faranno avanti… Fan afferma che la ricerca sull’intelligenza artificiale multimodale è meno matura della ricerca sui LLM, e lascia spazio ai ricercatori per trovare nuove tecniche. Shannon è d’accordo e si aspetta innovazione ovunque, credendo nella rapida iterazione e nel miglioramento di grandi modelli linguistici open source, come LLama 2 di Meta.
“Penso che ci sarà sempre un pendolo tra gli strumenti generali [AI] e gli strumenti specializzati”, afferma Shannon. “Ciò che cambia è che ora abbiamo la possibilità di strumenti veramente potenti. E la specializzazione sarà una scelta più che un’esigenza”.