Un team di ricercatori provenienti da Princeton, Stanford e Google ha sfruttato le potenzialità di un modello linguistico di grandi dimensioni (LLM, Large Language Model) per insegnare a un robot chiamato TidyBot a riconoscere gli oggetti da sistemare in una stanza e a eseguire compiti di pulizia domestica. L’interazione tra gli LLM e la robotica potrebbe essere la chiave per realizzare robot in grado di comprendere in tempo reale i comandi degli uomini e di svolgere attività per cui non sono stati precedentemente programmati.
TidyBot, il robot che “capisce” le preferenze dell’utente
Le capacità di TidyBot sono più adattive rispetto ai modelli di Google e Microsoft, perché il robot della Princeton University ha potuto apprendere e utilizzare ciò che ha imparato nelle interazioni successive. Per farlo ha usato l’LLM GPT-3 Davinci-003 e la rete neurale CLIP che permette di effettuare classificazioni visive in un linguaggio naturale. Entrambi sono software di OpenAI. Le preferenze riguardano la collocazione di alcuni oggetti in certi posti raccolte con input testuali, per esempio: “le camicie gialle vanno nel cassetto, le camicie scure viola vanno nell’armadio, i calzini bianchi nel cassetto”. TidyBot, infatti, ha il compito specifico di riordinare la stanza, ma lo fa riuscendo a suddividere il bucato in chiaro e scuro, riciclare lattine di bevande, gettare la spazzatura, mettere via borse e utensili, riporre gli oggetti sparsi al loro posto e riporre i giocattoli in un cassetto.
Le attività di TidyBot, che è un piccolo veicolo robot con un braccio prensile, si sono svolte in 8 scenari di una stanza reale, ciascuno con il proprio set di 10 oggetti, da 2 a 5 recipienti, e tra 4 e 10 esempi già “visti” che hanno indicato le preferenze per gli oggetti che dovevano andare in determinati recipienti, nonché 10 oggetti di prova “mai visti” dal robot. Il test di riordino della stanza ha raggiunto un’accuratezza dell’85%.
Come funziona il modello linguistico che aiuta il robot
Il modello linguistico che permette a TidyBot di capire i comandi e le preferenze dell’utente è basato sul processamento del linguaggio naturale, una branca dell’intelligenza artificiale che si occupa di analizzare e generare testi in una lingua umana. Il modello linguistico di grandi dimensioni (LLM) usato da TidyBot è GPT-3 Davinci-003, uno dei più avanzati al mondo, sviluppato da OpenAI.
GPT-3 Davinci-003 è in grado di produrre testi coerenti e pertinenti a partire da un input testuale, grazie alla sua enorme capacità di memorizzare e manipolare informazioni linguistiche. Il modello è stato addestrato su miliardi di parole provenienti da diverse fonti online, come libri, articoli, blog, social media, ecc. Questo gli ha permesso di apprendere le regole grammaticali, il lessico, lo stile e il contesto di diversi generi e domini testuali. Per far comunicare il modello linguistico con il robot, i ricercatori hanno usato anche la rete neurale CLIP, anch’essa di OpenAI, che consente di effettuare classificazioni visive in un linguaggio naturale. CLIP è in grado di associare le immagini agli input testuali, riconoscendo gli oggetti presenti nelle scene e assegnandoli alle categorie corrispondenti. In questo modo, il robot può identificare gli oggetti da riordinare e i recipienti in cui metterli.
Quali sono i vantaggi e le sfide della robotica basata sui modelli linguistici
L’uso dei modelli linguistici nella robotica offre diversi vantaggi, come:
- La possibilità di impartire comandi al robot in modo semplice e naturale, senza dover usare codici o interfacce complesse.
- La flessibilità di adattare il comportamento del robot alle preferenze e alle esigenze dell’utente, senza dover riconfigurare o riprogrammare il robot ogni volta.
- L’abilità di far apprendere al robot nuove conoscenze e abilità da diverse fonti testuali, senza dover raccogliere e annotare grandi quantità di dati specifici per ogni compito.
Tuttavia, ci sono anche delle sfide da affrontare per rendere la robotica basata sui modelli linguistici più efficace e sicura, come:
- La qualità e l’affidabilità dei testi usati per addestrare e interrogare i modelli linguistici, che possono contenere errori, ambiguità, informazioni false o fuorvianti.
- La comprensione e l’interpretazione del contesto in cui si svolge l’interazione tra l’utente e il robot, che può influenzare il significato e la rilevanza dei comandi e delle risposte.
- La gestione delle situazioni impreviste o anomale che possono verificarsi durante l’esecuzione dei compiti da parte del robot, che possono richiedere una correzione o una spiegazione da parte dell’utente o del modello linguistico.
Queste sfide richiedono una continua ricerca e sperimentazione per migliorare le capacità dei modelli linguistici e la loro integrazione con la robotica. TidyBot è solo un esempio delle potenzialità e delle limitazioni di questa tecnologia emergente, che promette di rivoluzionare il modo in cui gli esseri umani e i robot si relazionano tra loro.