DrEureka, un software open source, consente di addestrare i robot con un sistema di “simulazione della realtà” utilizzando ChatGPT-4

-

Il Dr. Jim Fan ha utilizzato un robot quadrupede Unitree Go1. Con l’aiuto di ChatGPT il cane robot ha imparato a camminare su una palla svizzera. Un cane robot in equilibrio su una palla da ginnastica è un esperimento divertente da guardare, ma dimostra che le IA come GPT-4 possono addestrare i robot a svolgere compiti complessi nel mondo reale in modo molto più efficiente degli umani.

ChatGPT è un chatbot sviluppato da OpenAI e lanciato il 30 novembre 2022. Basato su modelli linguistici di grandi dimensioni (LLM), consente agli utenti di perfezionare e indirizzare una conversazione verso la lunghezza, il formato, lo stile, il livello di dettaglio e la lingua desiderati. Le successive richieste e risposte dell’utente vengono prese in considerazione in ogni fase della conversazione come contesto.

DrEureka, un nuovo software open Source, viene utilizzato per addestrare i robot a eseguire attività del mondo reale utilizzando modelli linguistici di grandi dimensioni (LLM) come ChatGPT-4. Si tratta di un sistema “sim-to-reality”, ovvero addestra i robot in un ambiente virtuale utilizzando la fisica simulata, prima di implementarli nello spazio reale.

Il dottor Jim Fan, uno dei progettisti di DrEureka, ha utilizzato un robot quadrupede Unitree Go1. È un robot supportato e open Source, il che è utile, perché anche con l’intelligenza artificiale, gli animali robot sono ancora suscettibili ai danni dovuti alle cadute. Il “Dr” in DrEureka sta per “Randomizzazione del dominio”, cioè la randomizzazione di variabili come attrito, massa, smorzamento, centro di gravità, ecc. in un ambiente simulato.

Con pochi suggerimenti in un LLM come ChatGPT, l’intelligenza artificiale può scrivere codice che crea un sistema di ricompensa/penalità per addestrare il robot nello spazio virtuale, dove 0 = fallimento e qualsiasi cosa superiore a 0 è una vittoria. Più alto è il punteggio, meglio è. Può creare parametri minimizzando e massimizzando i punti di cedimento/rottura in aree come il rimbalzo della palla, la forza motrice, il grado di libertà degli arti e l’ammortizzazione, solo per citarne alcuni. In quanto LLM, non ha problemi a creare questi parametri in grandi quantità, in modo che il sistema di formazione possa funzionare contemporaneamente. Dopo ogni simulazione, GPT può anche valutare le prestazioni del robot virtuale e determinare come può migliorare. Il superamento o la violazione dei parametri, ad esempio il surriscaldamento di un motore o il tentativo di articolare un arto oltre le sue capacità, risulterà in uno 0.

Richiedere a un LLM di scrivere codice richiede istruzioni di sicurezza. Il team ha scoperto che GPT si impegnerà per ottenere le migliori prestazioni possibili e “imbroglierà” nella simulazione senza guida. Questo va bene in una simulazione, ma nella vita reale potrebbe causare il surriscaldamento dei motori o l’estensione eccessiva degli arti, danneggiando il robot. I ricercatori chiamano questo fenomeno “comportamento dgnr“.

In un esempio di comportamento innaturale che ha imparato da solo, il robot virtuale ha scoperto che poteva muoversi più velocemente affondando il fianco nel terreno e usando i suoi tre piedi per correre lungo il terreno trascinando il fianco. Sebbene questo fosse un vantaggio nella simulazione, si è rivelato improduttivo quando il robot ha tentato di farlo nel mondo reale.

I ricercatori hanno quindi chiesto a GPT di prestare molta attenzione, tenendo presente che il robot sarebbe stato testato nel mondo reale. In risposta, GPT ha creato funzionalità di sicurezza per aspetti come l’azione fluida, l’orientamento del busto, l’altezza del busto e la garanzia che i motori del robot non fossero eccessivamente serrati. Se il robot imbroglia e viola queste impostazioni, la sua funzione di ricompensa gli attribuisce un punteggio inferiore. Le caratteristiche di sicurezza mitigano comportamenti degenerati e innaturali, come spinte pelviche non necessarie.

Come si è comportato il robot? DrEureka ha battuto con successo gli umani nell’addestramento dei robot, con un vantaggio del 34% nella velocità di avanzamento e del 20% nella distanza percorsa su terreni misti del mondo reale. Come è possibile ? Secondo i ricercatori è una questione di stile di insegnamento. Gli esseri umani tendono verso un ambiente di insegnamento in stile curriculum, suddividendo i compiti in piccoli passaggi e cercando di spiegarli isolatamente, mentre GPT ha la capacità di insegnare efficacemente tutto, in una volta sola.

DrEureka è il primo del suo genere. È in grado di passare “senza soluzione di continuità” dalla simulazione al mondo reale. Immagina di non avere praticamente alcuna conoscenza pratica del mondo che ti circonda, di essere buttato fuori dal nido e lasciato a te stesso. Questo si chiama “colpo zero”. I creatori di DrEureka credono che potrebbero migliorare ulteriormente l’addestramento alla realtà della simulazione se potessero fornire un feedback GPT nel mondo reale. Attualmente, tutto l’addestramento al simulatore viene effettuato utilizzando i dati provenienti dai sistemi di propriocezione del robot, ma se GPT potesse vedere cosa è andato storto attraverso un feed video reale invece di limitarsi a leggere l’errore di esecuzione nei registri del robot, potrebbe perfezionare le sue istruzioni in modo molto più efficiente.

Abbiamo addestrato un cane robot a restare in equilibrio e a camminare su una palla da yoga solo in simulazione, quindi abbiamo trasferito il punto zero nel mondo reale. Nessuna concentrazione. Ha funzionato, tutto qui.

Sono felice di annunciare DrEureka, un agente LLM che scrive codice per addestrare le capacità di simulazione di un robot e scrive ancora più codice per colmare il difficile divario tra simulazione e realtà. Automatizza completamente il processo dall’apprendimento di nuove competenze all’implementazione nel mondo reale.

Il compito della palla yoga è particolarmente difficile perché non è possibile simulare accuratamente la superficie di rimbalzo della palla. Tuttavia, DrEureka non ha problemi a trovare un vasto spazio di configurazioni tra simulazione e realtà, e permette al cane di dirigere la palla su diversi terreni, anche camminando di lato!

Tradizionalmente, il trasferimento della simulazione alla realtà si ottiene attraverso la randomizzazione dei domini, un processo noioso che richiede esperti di robotica umana per esaminare ogni parametro e regolarlo manualmente. Gli LLM all’avanguardia come GPT-4 hanno tantissime intuizioni fisiche integrate per attrito, smorzamento, rigidità, gravità e altro ancora. Siamo (leggermente) sorpresi di scoprire che DrEureka è in grado di impostare questi parametri in modo competente e di spiegare il suo ragionamento in modo soddisfacente.

DrEureka si basa sul nostro lavoro precedente, Eureka, l’algoritmo che insegna a una mano robotica a 5 dita a far girare una penna. Va oltre nella nostra ricerca per automatizzare l’intero processo di apprendimento dei robot attraverso un sistema di agenti di intelligenza artificiale. Un modello che produce corde supervisionerà un altro modello che produce controllo di coppia.

Rendiamo tutto open Source!

E lei ?

Qual è la tua opinione sull’argomento?

Pensi che questo metodo di apprendimento sia credibile o rilevante?

Vedi anche:

Il robot mobile ALOHA di Stanford impara a cucinare, pulire e fare il bucato per imitazione. Basato su ALOHA di Google DeepMind, migliora l’apprendimento robotico, in particolare la mobilità

Toyota Research annuncia una svolta nell’insegnamento di nuovi comportamenti ai robot con l’obiettivo di insegnare mille nuove competenze entro la fine del 2024

Un modello di intelligenza artificiale di OpenAI ora consente al robot umanoide Figure 01 di avere conversazioni complete con gli esseri umani. Può anche conservare piatti e servire cibo

-

PREV La Borsa di Parigi rallenta in assenza di un catalizzatore
NEXT La LEM propone l’elezione di Libo Zhang nel consiglio di amministrazione