Negli ultimi anni, molti team di ricerca in tutto il mondo hanno sviluppato e valutato tecniche per consentire diversi stili di locomozione nei robot umanoidi: per addestrarli è possibile farli analizzare ed emulare dimostrazioni del mondo reale.
Anche i robot umanoidi devono imparare a farlo e possono usare quello che si chiama apprendimento per imitazione, proprio come fanno i bambini. Ossia è possibile addestrarli facendoli analizzare ed emulare dimostrazioni del mondo reale.
I ricercatori dell’Università di Edimburgo in Scozia hanno recentemente ideato un framework per addestrare i robot umanoidi a camminare come umani usando dimostrazioni umane.
Il lavoro, presentato in pre-print su arXiv, combina l’apprendimento dell’imitazione e le tecniche di apprendimento profondo per rinforzo con le teorie del controllo robotico, al fine di ottenere una locomozione naturale e dinamica nei robot umanoidi.
La domanda chiave che ci siamo prefissati di indagare era come incorporare le conoscenze umane nella locomozione dei robot e i dati di acquisizione del movimento umano per l’imitazione nel paradigma di apprendimento profondo per rinforzo per far avanzare le capacità autonome dei robot umanoidi in modo più efficiente.
Ha dichiarato Chuanyu Yang, uno dei ricercatori che ha effettuato lo studio, a TechXplore.
Sono stati proposti due metodi per introdurre le precedenti conoscenze in un quadro di apprendimento profondo per rinforzo.
Il framework ideato da Yang e dai suoi colleghi si basa su un design di ricompensa unico che utilizza i dati di didascalie di movimento degli umani che camminano come riferimenti di allenamento. Inoltre, utilizza due architetture neurali gerarchiche specializzate, vale a dire una rete neurale a fase (PFNN) e una rete neurale adattiva (MANN).
PFNN è l’unica rete in grado di generare andature simmetriche simili all’uomo senza riferimento umano a causa della sua struttura periodica intrinseca.
La chiave per replicare stili di locomozione simili all’uomo è introdurre i dati che riguardano il modo di camminare umano come una dimostrazione “esperta” da imitare per l’agente di apprendimento
ha spiegato Yang che continua
la progettazione di premi è un aspetto importante dell’apprendimento per rinforzo, in quanto regola il comportamento dell’agente.
Il design della ricompensa usato da Yang e dai suoi colleghi consiste in un termine di attività e un termine di imitazione.
Il primo di questi componenti offre la guida necessaria affinché un robot umanoide raggiunga la locomozione di alto livello, mentre il secondo consente percorsi di camminata più naturali.
I ricercatori hanno valutato il loro quadro di apprendimento dell’imitazione in una serie di esperimenti condotti in ambienti simulati. Hanno scoperto che era in grado di produrre comportamenti di locomozione robusti in una varietà di scenari, anche in presenza di disturbi o fattori indesiderabili, come irregolarità del terreno o spinte esterne.
- Teaching humanoid robots different locomotion behaviors using human demonstrations (techxplore.com)
- Learning natural locomotion behaviors for humanoid robots using human knowledge (arxiv.org)
- Learning Natural Locomotion Behaviors for Humanoid Robots Using Human Bias (ieeexplore.ieee.org)
- Phase-functioned neural networks for character control, ACM Transactions on Graphics (dl.acm.org)
- Mode-adaptive neural networks for quadruped motion control, ACM Transactions on Graphics (dl.acm.org)