Sei sicuro di voler utilizzare un chatbot come motore di ricerca?

Friday 01st November 2024 11:49 AM

Dopo un prototipo presentato lo scorso luglio, OpenAI lancia ufficialmente un motore di ricerca all’interno di ChatGPT. Lo strumento si basa su una versione speciale di GPT-4o e si nutre di risultati di altri motori di ricerca (presumibilmente Bing), nonché di contenuti di fornitori di informazioni e media con cui OpenAI ha partnership. Invece di un elenco di collegamenti, lo strumento risponde alle domande in linguaggio naturale e incorpora frammenti e fonti su cui gli utenti possono fare clic per saperne di più. Possono anche perfezionare la ricerca chattando con lo strumento.

Naturalmente, gli utenti di ChatGPT non hanno aspettato questo nuovo strumento per porre domande che prima rivolgevano ai motori di ricerca, cioè a Google. Naturalmente, OpenAI non è la prima azienda a fornire direttamente risposte alle domande (Google Quick Answers), né a combinare un modello linguistico di grandi dimensioni e un motore di ricerca (Bing/Copilot), né a menzionare le fonti nelle risposte (Perplexity.ai). Tuttavia, il lancio di ChatGPT Search formalizza questo utilizzo all’interno dello strumento pionieristico e più popolare.

Da intermediario a fonte di informazione

Il suo lancio merita quindi attenzione per le sfide di questo utilizzo emergente. In altre parole, cosa cambia quando utilizziamo un’interfaccia conversazionale che cita le fonti come motore di ricerca? Innanzitutto, il potere dato al motore di ricerca si sta evolvendo. Con la loro lista di risultati, i motori di ricerca tradizionali sono autorevoli sui riferimenti da consultare: “ecco i siti in cui troverai quello che cerchi”. Con le interfacce conversazionali, il motore di ricerca ora ha autorità sull’informazione stessa: “ecco l’informazione che cerchi, ecco la risposta alla tua domanda”.

Ciò è problematico quando sappiamo che modelli linguistici di grandi dimensioni possono inventare informazioni e che l’interfaccia conversazionale crea fiducia nell’utente. “Il fatto che l’informazione assorbita dai modelli permetta loro anche di generare testi apparentemente rilevanti e coerenti non li rende fonti di informazione affidabili, anche se sembra che una conversazione renda le persone più propense a fidarsi di loro”, spiegano i ricercatori dell’Università di Washington in un articolo scientifico sulla questione (Ricerca della situazione).

Questi motori di ricerca conversazionale hanno un impatto anche sulla diversità delle fonti di informazione. Con i motori di ricerca tradizionali, i link che non apparivano nella prima pagina dei risultati tendevano già ad essere trascurati dagli utenti. Con ChatGPT Search o Perplexity, queste fonti di livello inferiore scompaiono completamente.

Delega agli algoritmi

Nel già citato articolo, i ricercatori evidenziano anche la varietà degli utenti, degli usi e delle ragioni per utilizzare un motore di ricerca: a volte sappiamo cosa stiamo cercando, a volte vogliamo esplorare ciò che viene detto o saperne di più su un argomento, a volte vogliamo per selezionare le fonti nelle quali ci fidiamo di più.

Questi usi faticano a essere supportati dai motori di ricerca conversazionali. Sintetizzando le informazioni, questi nuovi strumenti svolgono gran parte del lavoro per gli utenti. Non devono più scansionare e selezionare i risultati o riformulare la loro query. Questa delega porta ad una riduzione del carico cognitivo ma anche ad un impoverimento degli usi e delle tattiche.

“Dovremmo cercare di costruire strumenti che aiutino gli utenti a trovare e dare un senso alle informazioni piuttosto che strumenti che pretendono di fare tutto per loro”, concludono i ricercatori.

Le risposte più attraenti sono quelle con meno fonti

Come Perplexity.ai, Chat GPT Search indicherà le fonti su cui si basa la sua risposta. Per molti utenti queste menzioni e la possibilità di verificare le informazioni alla fonte costituiscono argomenti decisivi a favore di queste soluzioni.

Solo che questa fonte di informazioni non è affidabile. Secondo uno studio comparativo (Valutazione della verificabilità nei motori di ricerca generativi) da ricercatori dell’Università di Stanford su vari strumenti (Bing Chat, NeevaAI, Perplexity.ai, YouChat), solo la metà delle affermazioni contenute nelle risposte sono pienamente supportate dalle fonti indicate (richiamo). E, al contrario, una fonte su quattro non supporta completamente l’affermazione ad essa associata (accuratezza).

Questa mancanza di affidabilità è tanto più preoccupante in quanto la semplice indicazione delle fonti rafforza la fiducia: chi si prende effettivamente il tempo per verificare la fonte di ogni affermazione? “Crediamo che questi risultati siano inaccettabili per i sistemi che stanno rapidamente diventando uno strumento popolare per rispondere alle domande e che hanno già milioni di utenti, soprattutto considerando che le risposte generate spesso appaiono informative e utili”, scrivono i ricercatori.

Un altro risultato del loro studio è ancora più problematico: l’utilità percepita delle risposte è inversamente correlata all’accuratezza delle fonti citate. In altre parole, meno le affermazioni sono supportate dalle fonti, più gli utenti le giudicano fluide e utili. La spiegazione dei ricercatori: gli strumenti più affidabili tendono a copiare o parafrasare le affermazioni presenti nelle fonti a scapito della fluidità e dell’utilità. Al contrario, gli strumenti che si discostano dalle fonti hanno più libertà di generare risposte fluide che sembrano importanti e utili.

Più in generale, i ricercatori notano “che i motori di ricerca generativi esistenti faticano a elaborare domande a cui non è possibile rispondere in modo estrattivo (ad esempio, aggregando informazioni da più citazioni) e a ponderare adeguatamente citazioni che variano in rilevanza (selezione del contenuto).”

I due documenti di ricerca menzionati nell’articolo:
Chirag Shah e Emily M. Bender. (2022). Ricerca della situazione.
Liu, NF, Zhang, T. e Liang, P. (2023). Valutazione della verificabilità nei motori di ricerca generativi.