OpenAI crea un benchmark che misura la tendenza alle allucinazioni degli LLM

OpenAI crea un benchmark che misura la tendenza alle allucinazioni degli LLM
OpenAI crea un benchmark che misura la tendenza alle allucinazioni degli LLM
-

Per valutare meglio l’accuratezza dei suoi grandi modelli linguistici, OpenAI ha sviluppato SimpleQA, un benchmark dedicato alle risposte fattuali. È confermato: i modelli GPT hanno ancora dei limiti.

Lo sappiamo tutti e lo abbiamo sperimentato: gli LLM possono avere allucinazioni con risposte errate. OpenAI ovviamente spera di correggere la situazione e migliorare l’affidabilità dei suoi modelli. Per fare ciò, l’azienda ha introdotto SimpleQA, il proprio benchmark open Source per misurare l’accuratezza della risposta di modelli linguistici di grandi dimensioni. Lo sviluppo di questo nuovo strumento ha evidenziato gli attuali limiti dei LLM per alcune questioni.

SimpleQA è stato progettato per valutare la capacità dei modelli OpenAI di rispondere a domande brevi, mirate e basate sui fatti. La metodologia si basa su un insieme di 4326 domande chiare, con risposte verificabili, volte a semplificare la valutazione. Limitando la portata del benchmark a domande ben definite, OpenAI afferma che SimpleQA consente una misurazione più precisa della fattualità.

Domande volutamente difficili

Precisazione importante: per la selezione degli stimoli interrogativi, i formatori di IA hanno sviluppato domande concrete e risposte precise, rispettando criteri rigorosi: una risposta unica, che rimane costante nel tempo, e una tendenza a provocare allucinazioni. I ricercatori hanno infatti selezionato solo domande alle quali almeno una versione del LLM di OpenAI aveva fornito una risposta errata. I risultati riflettono quindi le prestazioni dei modelli su domande deliberatamente difficili, non la loro capacità generale di rispondere a domande basate sui fatti.

Un massimo del 40% di risposte corrette

I risultati indicano che GPT-4o, la versione attuale di GPT-4, ottiene circa il 40% di risposte corrette, mentre il modello GPT-4 o1-Preview ottiene punteggi leggermente più alti. I modelli più piccoli hanno prestazioni ancora inferiori.

Secondo i ricercatori di OpenAI, SimpleQA potrebbe incoraggiare la ricerca su un’intelligenza artificiale più affidabile. “La correlazione tra la capacità di fornire risposte brevi e concrete e la capacità di scrivere risposte dettagliate rimane una questione aperta”, hanno aggiunto.

Rendere gli LLM più affidabili è probabilmente una questione ancora più cruciale ora che OpenAI ha lanciato il proprio motore di ricerca. Continua a leggere l’argomento >> Sei sicuro di voler utilizzare un chatbot come motore di ricerca?

Business

-

PREV Come è esploso il costo dell’isola energetica?
NEXT Approvato: Sunrise torna indipendente e torna in Borsa (aggiornamento)