L’EPFL collabora con Apple per perfezionare i modelli GenAI multimodali

Friday 10th January 2025 03:37 PM

OpenAI e Google hanno recentemente compiuto un passo importante lanciando API multimodali. Queste soluzioni consentono interazioni bidirezionali in tempo reale, elaborando simultaneamente input di testo, audio e video, con risposte generate come testo o audio.

Tuttavia, come spiega l’EPFL, i modelli formativi in grado di elaborare molteplici modalità rappresentano una sfida significativa. Differenze marcate tra i tipi di dati rendono difficile l’addestramento. E alcune modalità vengono spesso trascurate, compromettendo la qualità e la precisione del modello complessivo.

Una rete neurale chiamata 4M

Per superare questi limiti, un team del Visual Intelligence and Learning Laboratory (VILAB), della Facoltà di informatica e comunicazione (IC) dell’EPFL, ha sviluppato 4M, con il supporto di Apple (il cui direttore della ricerca sull’intelligenza artificiale è stato appena nominato professore all’EPFL). Questo progetto mira a creare una rete neurale in grado di gestire un’ampia gamma di compiti e modalità.

“Quando passiamo alla modellazione multimodale, non dobbiamo limitarci al linguaggio. Portiamo altre modalità, compresi i sensori. Ad esempio, possiamo comunicare su un’arancia utilizzando la parola “arancia”, come nei modelli linguistici, ma anche attraverso una raccolta di pixel, che indicano l’aspetto dell’arancia, o attraverso il senso del tatto, catturando la sensazione di toccare un’arancia . Se metti insieme diverse modalità, ottieni un incapsulamento più completo della realtà fisica che stiamo cercando di modellare”, spiega Amir Zamir, capo di VILAB.

Le modelle tradiscono ancora

Questo quadro formativo, tuttavia, non ha ancora raggiunto una vera unificazione delle modalità. Secondo Amir Zamir, “i modelli imbrogliano e creano un piccolo insieme di modelli indipendenti. Un insieme di parametri risolve un problema, un altro insieme di parametri ne risolve un altro e collettivamente sembrano risolvere il problema complessivo. Ma non unificano realmente le loro conoscenze in modo da consentire una rappresentazione congiunta e compatta dell’ambiente che sarebbe un buon portale verso il mondo.

Il team VILAB continua a perfezionare 4M, al fine di ottenere una solida capacità di unificazione delle modalità. L’obiettivo è quello di sviluppare un’architettura generica open Source che consentirà a ricercatori ed esperti di altre discipline di adattare il modello alle loro esigenze specifiche.