“Exfluency è un’azienda tecnologica che fornisce soluzioni di intelligenza ibrida per la comunicazione multilingue. Sfruttando la tecnologia AI (di intelligenza artificiale) e blockchain forniamo alle aziende esperte di tecnologia l’accesso a strumenti linguistici moderni. Il nostro obiettivo è rendere il patrimonio linguistico prezioso quanto qualsiasi altro patrimonio aziendale.”
Questo l’incipit di un’intervista a Jaromir Dzialo, co-fondatore e CTO di Exfluency. Come in ogni altro ambito della vita, l’intelligenza artificiale in generale e ChatGPT in particolare dominano legnose il momento. Le aziende che operano nel settore linguistico sono in preda al panico o cominciano ad affrettarsi a recuperare il ritardo. La sfida principale è l’entità del deficit tecnologico in questo settore.
Gli LLM standard (livelli di linguaggi di grandi dimensioni, come ChatGPT, Bard, ecc.) hanno un’attrazione sul mercato tecnologico e si stanno sviluppando con impressionante velocità. E imparano ogni tipologia di linguaggio analizzando grandi quantità di dati di testo, comprendendo modelli e relazioni e utilizzando metodi statistici per generare risposte contestualmente appropriate. La loro capacità di generalizzare dai dati e generare testo coerente li rende strumenti versatili per varie attività legate alla lingua.
I Large Language Models (LLM), come GPT-4, si basano su una combinazione di dati, riconoscimento di modelli e relazioni statistiche per apprendere la lingua. Ecco i componenti chiave su cui fanno affidamento:
• Dati: gli LLM vengono formati su grandi quantità di dati di testo da Internet. Questi dati includono un’ampia gamma di fonti, come libri, articoli, siti Web e altro. La diversa natura dei dati aiuta il modello ad apprendere un’ampia varietà di modelli linguistici, stili e argomenti.
• Modelli e relazioni: gli LLM imparano il linguaggio identificando modelli e relazioni all’interno dei dati. Analizzano la compresenza di parole, frasi e frasi per capire come si incastrano grammaticalmente e semanticamente.
• Apprendimento statistico: gli LLM utilizzano tecniche statistiche per apprendere le probabilità delle sequenze di parole. Stimano la probabilità che una parola appaia date le parole precedenti in una frase. Ciò consente loro di generare testo coerente e contestualmente rilevante.
• Informazioni contestuali: i LLM si concentrano sulla comprensione contestuale. Considerano non solo le parole precedenti ma anche l’intero contesto di una frase o di un passaggio. Queste informazioni contestuali li aiutano a chiarire le ambiguità di parole con significati multipli e a produrre risposte più accurate e adeguate al contesto.
• Meccanismi di attenzione: molti LLM, incluso GPT-4, utilizzano meccanismi di attenzione. Questi meccanismi consentono al modello di valutare l’importanza delle diverse parole in una frase in base al contesto. Ciò aiuta il modello a concentrarsi sulle informazioni rilevanti durante la generazione di risposte.
• Transfer Learning: gli LLM utilizzano una tecnica chiamata “transfer learning”. Vengono preaddestrati su un set di dati di grandi dimensioni e quindi ottimizzati su attività specifiche. Ciò consente al modello di sfruttare la sua ampia conoscenza linguistica derivante dalla formazione preliminare, adattandosi allo stesso tempo per eseguire attività specializzate come traduzione, riepilogo o conversazione.
• Architettura codificatore-decodificatore: in alcuni compiti come la traduzione o il riepilogo, gli LLM utilizzano un’architettura codificatore-decodificatore. Il codificatore elabora il testo di input e lo converte in una rappresentazione ricca di contesto, che il decodificatore utilizza quindi per generare il testo di output nella lingua o nel formato desiderato.
• Ciclo di feedback: gli LLM possono imparare dalle interazioni degli utenti. Quando un utente fornisce correzioni o feedback sul testo generato, il modello può adattare le sue risposte in base a tale feedback nel tempo, migliorando le sue prestazioni.
“Una questione fondamentale, che esiste da quando abbiamo iniziato a fornire dati a Google, Facebook e simili, è che “noi” siamo il prodotto. I grandi player stanno guadagnando moltissimo, grazie alla nostra fretta di alimentare le loro app con i nostri dati. ChatGPT, ad esempio, sta godendo dell’onboarding in più rapida crescita nella storia. Basti pensare a come Microsoft ha tratto vantaggio dai milioni di suggerimenti che le persone hanno già lanciato.” confida Dzialo.
Ma cosa riserverà il futuro per la comunicazione multilingue? “Come in molti altri ambiti della vita, il linguaggio abbraccerà forme di intelligenza ibrida. Ad esempio, nell’ecosistema Exfluency, il flusso di lavoro basato sull’intelligenza artificiale si occupa del 90% della traduzione; i nostri fantastici esperti bilingue in materia devono quindi concentrarsi solo sull’ultimo 10%. Questo equilibrio cambierà nel tempo: l’intelligenza artificiale occuperà una percentuale sempre maggiore del carico di lavoro. Ma il contributo umano rimarrà cruciale. Il concetto è racchiuso nel nostro slogan: ‘Alimentato dalla tecnologia, perfezionato dalle persone'”. Lo confida Dzialo che, alla domanda su quali piani abbia Exfluency per il prossimo anno, risponde: “Molti! Il nostro obiettivo è estendere la tecnologia a nuovi settori verticali e costruire comunità di PMI al loro servizio. C’è grande interesse anche per la nostra app Knowledge Mining, progettata per sfruttare le informazioni nascoste in milioni di risorse linguistiche. Il 2024 sarà emozionante!”. Prepariamoci.