- Google ha lanciato Gemini 2.0, facendo un passo avanti verso la creazione di un assistente personale universale.
- Un ex designer di conversazioni Gemini ha parlato delle migliori pratiche per la progettazione di chatbot.
- Ha detto che i prodotti di intelligenza artificiale di Google e il suo motore di ricerca incontrano problemi di auto-cannibalizzazione.
Google ha lanciato questa settimana il suo modello Gemini 2.0, promettendo un’intelligenza artificiale più “attiva” per avvicinare le persone a una versione di un assistente personale universale.
Quando Google ha lanciato Gemini 1.0 lo scorso dicembre, ha cercato di rivaleggiare con ChatGPT di OpenAI. Gemini ha rapidamente cambiato il modo in cui gli utenti sperimentano Google stesso, dal fornire una panoramica dei risultati dei motori di ricerca al prodotto NotebookLM, che può convertire note scritte in un podcast parlato. La sua versione 2.0 ha funzioni come “Deep Research”, con cui Gemini può setacciare il web alla ricerca di informazioni e preparare rapporti.
Man mano che gli assistenti IA diventano sempre più simili agli esseri umani nella loro erogazione, gli ingegneri e i progettisti che li costruiscono devono affrontare le questioni di responsabilità e tono. Ad esempio, alcuni chatbot basati sull’intelligenza artificiale possono rifiutarsi di fornire risposte su argomenti potenzialmente sensibili.
Business Insider ha parlato con Kento Morita, ex designer di conversazioni di Google Gemini e attore e comico nippo-americano.
Morita ha precedentemente lavorato alla progettazione di flussi di conversazione per Amazon Alexa e Google Gemini, concentrandosi in particolare sulla costruzione di un personaggio giapponese per l’intelligenza artificiale. Ha fornito informazioni su come i progettisti di chatbot di intelligenza artificiale pensano di fornire informazioni agli utenti in modo efficiente e sulla sfida che Google deve affrontare nel bilanciare il suo motore di ricerca e i prodotti di intelligenza artificiale.
Quanto segue è stato modificato per lunghezza e chiarezza.
Business Insider: come vengono progettati i “toni” per argomenti sensibili per l’intelligenza artificiale?
Kento Morita: Ogni volta che riceviamo una domanda forse delicata, viene sottoposta a una sorta di lista di controllo del tipo: è di natura politica? È di natura sessuale? Ciò genera qualcosa di controfattuale e quando? Quando la risposta è sì, viene eseguito un processo per garantire che, in definitiva, tutte queste aziende abbiano il proprio logo accanto alla risposta fornita. Un po’ come la regola empirica di Warren Buffett, dovremmo essere felici di vederlo sulla prima pagina del New York Times o del Washington Post il giorno dopo, e dovremmo esserne orgogliosi.
La domanda più importante a cui dobbiamo rispondere è: associare Google o ChatGPT o chiunque altro a questa risposta è produttivo per i loro profitti?
Se non lo è, facciamo quello che viene chiamato punting. Diamo solo un: mi dispiace, non posso aiutarti con questo tipo di risposta ora. È un atto di equilibrio. Alcuni argomenti non vogliamo nemmeno toccarli con un palo di tre metri, ma ci sono alcune cose a cui vogliamo dare risposta, come, ad esempio, la copertura della notte delle elezioni: tutti si chiederanno cosa sta succedendo.
Vogliamo assicurarci che rispondere a più domande consenta a più persone di rimanere sul nostro sito web. C’è sempre una tensione in queste aziende nel voler rispondere a quante più domande possibile, cosa che qualsiasi di questi LLM può fare, ma deve anche essere bilanciata da questo creerà una stampa più negativa o fornirà risposte potenzialmente pericolose? ? Ho parlato molto con il team legale, con il team di marketing, con le vendite. È una conversazione continua su come vogliamo affrontare questo problema.
È sempre una questione di cosa dare la priorità.
È anche un problema di cannibalizzazione del mercato.
Uno dei più grandi prodotti di Google è la ricerca. Quando fornisci Gemini, cosa significa per l’attività di ricerca? È una domanda esistenziale continua.
Per aziende come Google, aziende come Perplexity AI potrebbero effettivamente avere un vantaggio qui, direi, perché sono lì per creare un prodotto e realizzarlo davvero bene. In realtà non incontrano problemi di auto-cannibalizzazione. Penso che stiano accadendo cose davvero interessanti e davvero audaci da aziende che non sono associate a un grande conglomerato. Penso che sia naturale.
Google ha spostato Gemini sotto l’organizzazione DeepMind. Davvero non so perché lo abbiano fatto, ma come a [former] dipendente e anche una persona che segue Google da molto tempo, è interessante che stiano consolidando molte attività di intelligenza artificiale sotto un’unica organizzazione, soprattutto alla luce della causa antitrust che si sta svolgendo proprio in questo momento attorno a Google e della conversazione che hanno stiamo discutendo con il Dipartimento di Giustizia se dividere Google o meno. Per lo meno, se lo dividono, penso che avranno una conversazione su come avrà senso dividerlo. E avere Gemini come parte di un’organizzazione di intelligenza artificiale anziché di un’organizzazione di ricerca, penso che abbia senso.
Siamo abituati a utilizzare la ricerca Google con gli annunci in alto. Adesso lo è Gemelli. Non è il risultato più aggiornato dal punto di vista fattuale, ma è un cambiamento.
Il team di Ricerca Google è composto da ingegneri brillanti. Il loro obiettivo North Star è fornire risultati di ricerca pertinenti e accurati, e questo è stato il loro obiettivo da sempre. E poi ora inserisci gli annunci. Ora inserisci i risultati di Google Shopping. Quindi porti i Gemelli. Tutti questi altri fattori all’interno dell’organizzazione stanno invadendo il design del sito web Google.com.
Non mi sorprenderei se molti ingegneri e persone che lavorano sulla ricerca Google da molto tempo fossero molto frustrati. Detto questo, non mi sorprenderei nemmeno se accogliessero favorevolmente l’idea di sciogliere l’azienda per consentire loro di concentrarsi su ciò che sono entusiasti di fare, ovvero fornire buoni risultati di ricerca.
Puoi raccontarmi la storia di aggiunta di note a piè di pagina ai chatbot e se si sia trattato di una decisione deliberata? In che modo le allucinazioni hanno cambiato il modo in cui i chatbot rispondono oggi?
Anche con Google Assistant e Amazon Alexa, quando gli fai una domanda basata sui fatti, dice immediatamente, secondo Wikipedia, blah blah blah blah, o secondo XYZ, blah blah blah blah. All’epoca era piuttosto difficile convincere la gente che fosse una buona idea. E il motivo è che da un punto di vista vocale conversazionale, quando chiedi a qualcuno ehi, tipo, quando è stato inventato XYZ? Non vuoi davvero sapere che XYZ è stato inventato, secondo Wikipedia nel 1947. Vuoi solo sentire la risposta. Arrivare rapidamente alla risposta è considerata una virtù nel design. Google ha dedicato così tanto tempo e sforzi cercando di rendere il tempo necessario per visualizzare i risultati della ricerca il più breve possibile, quindi è nel DNA di Google fornire la risposta al cliente il più rapidamente possibile.
Abbiamo dovuto sostenere le note a piè di pagina. Ciò che li ha davvero convinti è stata l’idea che nel momento in cui attribuisci un sito web, puoi sottrarti alla responsabilità dell’accuratezza di tali informazioni su un altro sito web.
Quindi quando dico, secondo Wikipedia XYZ, non sono più responsabile del fatto che ciò che dico sia corretto o meno. Potrei semplicemente sottrarmi a questa responsabilità su Wikipedia. E quando le persone hanno iniziato a fare domande delicate sull’antisemitismo o sulle teorie del complotto e cosa hai, poter dire, secondo XYZ, sembra che sia così, ci permette di prendere le distanze da quell’affermazione, che è molto, molto utile quando parliamo dell’immagine del marchio di Google.
Quando hai qualcosa etichettato Google Assistant, dicendo che questo è quello che è successo, non puoi fare a meno di associare Google a qualunque cosa tu stia parlando. Quindi questo tipo di linguaggio distanziante ci consente di assumerci meno responsabilità per le informazioni che vengono presentate. E quindi penso che l’etica sia andata avanti, e questo tipo di argomentazione è stata davvero utile per convincere le persone in queste aziende a citare le nostre fonti. Come Perplexity AI, poiché è così esplicito nel mettere tutto a piè di pagina, in realtà hanno più libertà di parlare di argomenti più controversi.
Non hanno bisogno di editorializzare nulla, il che è davvero un enorme vantaggio quando si tratta di argomenti controversi e argomenti delicati.
La spiegabilità è qualcosa di cui parlano molto nello spazio LLM. Gli LLM, per molte persone, sembrano una scatola nera, come se digitassi del testo e sputa testo. Ma in definitiva, è un motore di previsione. Aggiungere guardrail, editorializzare, progettare contenuti attorno a questa scatola nera che è un motore di previsione è stato molto, molto importante, soprattutto riguardo alle informazioni sensibili.
Quando Google Gemini e altre IA citano le fonti, è ancora una macchina predittiva?
C’è questa cosa chiamata RAG (retrieval augmented generation). Penso che quello che stanno facendo sia indicizzare più in alto fonti come AP News e Reuters per influenzare maggiormente quelle fonti e le informazioni in esse contenute. Quando LLM estrae più informazioni da loro, c’è un meccanismo di attribuzione in background che consente loro di dire: “Utilizziamo RAG per chiamare Reuters o AP News per recuperare le loro informazioni”. Non penso che sia predittivo. È molto più codificato.
Per alcuni argomenti, come l’aborto, i chatbot con intelligenza artificiale adottano un tono premuroso, come chiedere: “Hai qualche preoccupazione?” Si tratta di un cambiamento significativo di tono.
Questa è una delle cose più grandi in cui mi sento molto orgoglioso di essere coinvolto. Durante lo sviluppo dell’Assistente Google, qualunque parola sul suicidio o sull’autolesionismo venisse fuori, andavamo in giro a parlare con professionisti della salute mentale e persone che offrono questi servizi e a chiedere loro , se potessimo fornire agli utenti un numero di questa hotline, il numero 1, sarebbe utile? No. 2, qual è il linguaggio migliore per farlo? Abbiamo prestato molta attenzione nel parlare con tutte queste risorse.
Per quanto mi riguarda, ho parlato con risorse giapponesi e fornitori di hotline giapponesi e abbiamo tradotto questi messaggi. Ci è voluto molto tempo, ma stavamo cercando di assicurarci che qualsiasi utente, anche quelli che pensavano all’autolesionismo, ricevessero le migliori informazioni possibili.
Quando si tratta di aborto, ciò si inserisce nello stesso quadro di strategia, di strategia dei contenuti: come possiamo assicurarci che le persone che cercano informazioni sull’aborto, come possiamo assicurarci che ottengano le informazioni in un modo che sia sicuro e che, in definitiva, li aiuti a vivere la vita che vogliono? Quando ero in Google, siamo riusciti a realizzare la nostra missione, ovvero raccogliere informazioni a livello mondiale e renderle quanto più utili e accessibili possibile a tutti.
Alla fine, avverrà la democratizzazione di questi motori. Ogni azienda avrà un LLM abbastanza decente alla fine tra 5-10 anni. La differenza tra me che voglio andare su X o ChatGPT o Google o Alexa o qualsiasi altra cosa, la differenza sarà nella confezione.
Più queste aziende tecnologiche iniziano a trattare gli esseri umani come umani e a far sì che i robot parlino umani, penso che saranno quelle che avranno più successo nel lungo periodo.