Ekipa na Univerzi v Tokiu je predstavila Alter3, humanoidnega robota, ki lahko izvaja gibe z uporabo GPT-4 Large Language Model (LLM). Alter3 uporablja najnovejše orodje Odprite AI za dinamično zavzemanje različnih poz, od poze za selfije do prikazovanja duhov, vse brez potrebe po vnaprej programiranih vnosih v bazo podatkov.

"Odziv Alter3 na pogovorno vsebino z uporabo obrazne mimike in kretenj je pomemben napredek v humanoidni robotiki, ki je zlahka prilagodljiv drugim androidom z minimalnimi spremembami," so povedali raziskovalci.

Na področju integracije LLM z roboti je poudarek na izboljšanju osnovne komunikacije in modeliranju realističnih odzivov. Raziskovalci se prav tako poglabljajo v zmožnosti LLM, da bi robotom omogočili razumevanje in izvajanje zapletenih navodil, s čimer bi povečali njihovo funkcionalnost.

Tradicionalno upravljanje na nizki ravni dela je vezan na strojno opremo in je zunaj pristojnosti LLM korporacij. To ustvarja težave pri neposrednem upravljanju del, ki temeljijo na LLM. Pri reševanju tega problema je japonska ekipa razvila metodo za pretvorbo izrazov človeških gibov v kodo, razumljivo za Android. To pomeni, da lahko robot neodvisno ustvari zaporedja dejanj skozi čas, ne da bi morali razvijalci posebej programirati vsak del telesa.

Med interakcijo lahko oseba daje ukaze Alter3, kot je »Take a selfie with your iPhone«. Nato robot sproži vrsto zahtev GPT-4, da pridobi navodila o potrebnih korakih. GPT-4 bo to prevedel v kodo Python, ki omogoča "razumevanje" dela in izvajanje potrebnih gibov. Ta inovacija omogoča Alterju 3 premikanje zgornjega dela telesa, medtem ko njegov spodnji del miruje, pritrjen na stojalo.

Alter3 je tretja ponovitev v Alterjevi seriji humanoidnih robotov od leta 2016, ki se ponaša s 43 aktuatorji, odgovornimi za mimiko obraza in gibanje okončin, ki jih poganja stisnjen zrak. Ta konfiguracija omogoča širok nabor izraznih potez. Robot ne more hoditi, lahko pa posnema značilne gibe hoje in teka.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 je pokazal tudi zmožnost kopiranja človeških poz z uporabo kamere in ogrodja OpenPose. Robot prilagodi svoje sklepe opazovanim položajem in shrani uspešne imitacije za kasnejšo uporabo. Interakcija s človekom je privedla do bolj raznolikih položajev, ki podpirajo idejo, da različni gibi izhajajo iz posnemanja človeka, podobno kot se novorojenčki učijo s posnemanjem.

Pred magistrskim študijem so morali raziskovalci skrbno nadzorovati vseh 43 aktuatorjev, da bi poustvarili položaj osebe ali simulirali vedenje, kot je strežba čaja ali igranje šaha. To je zahtevalo številne ročne nastavitve, vendar AI ekipi pomagal rešiti te rutine. »Pričakujemo, da bo Alter3 učinkovito sodeloval v dialogu s prikazovanjem kontekstno pomembnih obraznih izrazov in gest. Pokazala je sposobnost zrcaljenja čustev, na primer, da v odgovor pokaže žalost ali srečo, s čimer čustva deli z nami,« pravijo raziskovalci.

Preberite tudi:

Jerelozanimiv inženiring

Prijavite se

0 Komentarji

Vdelana mnenja

Prikaži vse komentarje

Drugi članki

V Tokiu so pokazali uspehe humanoidnega robota Alter3 na osnovi GPT-4

Nedavni komentarji