
3月10日,上海机器人初创公司智元机器人正式发布智元启元大模型GenieOperator-1(GO-1),这是中国首个通用具身基座模型。智元机器人表示,这款模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,降低了后训练成本。

据介绍,该模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化。ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM(多模态大模型)、Latent Planner(隐式规划器)和Action Expert(动作专家)三者协同工作。目前智元启元大模型已成功部署到智(zhì)元(yuán)多(duō)款(kuǎn)机(jī)器(qì)人(rén)本(běn)体(tǐ)。
2024年(nián)年(nián)底(dǐ),智(zhì)元(yuán)机(jī)器(qì)人(rén)曾(céng)发(fā)布(bù)AgiBot World 百(bǎi)万(wàn)真(zhēn)机(jī)数(shù)据(jù)集,尽(jǐn)管(guǎn)AgiBot World 数(shù)据(jù)集已(yǐ)经(jīng)是(shì)目(mù)前(qián)最(zuì)大(dà)的(de)机(jī)器(qì)人(rén)真(zhēn)机(jī)示(shì)教(jiào)数(shù)据(jù)集,但(dàn)这(zhè)样(yàng)高(gāo)质量带(dài)动(dòng)作(zuò)标(biāo)签(qiān)的(de)真(zhēn)机(jī)数(shù)据(jù)量(liàng)仍(réng)然(rán)有(yǒu)限(xiàn),远(yuǎn)少(shǎo)于(yú)互(hù)联(lián)网(wǎng)规(guī)模(mó)的(de)数(shù)据(jù)集。为(wèi)了(le)解(jiě)决(jué)具(jù)身(shēn)智(zhì)能(néng)数(shù)据(jù)困(kùn)境(jìng),智(zhì)元(yuán)机(jī)器(qì)人(rén)采用(yòng)Latent Actions(隐(yǐn)式(shì)动(dòng)作(zuò))来(lái)建(jiàn)模(mó)当(dāng)前(qián)帧(zhèng)和(hé)历(lì)史(shǐ)帧(zhèng)之(zhī)间(jiān)的(de)隐(yǐn)式(shì)变(biàn)化(huà),然(rán)后(hòu)通(tōng)过(guò)Latent Planner(隐(yǐn)式(shì)规(guī)划(huà)器(qì))预(yù)测(cè)这(zhè)些(xiē)Latent Actions(隐(yǐn)式(shì)动(dòng)作(zuò)),从(cóng)而(ér)将(jiāng)异(yì)构(gòu)数(shù)据(jù)源(yuán)中(zhōng)真(zhēn)实(shí)世(shì)界(jiè)的(de)动(dòng)作(zuò)知(zhī)识(shi)转(zhuǎn)移(yí)到(dào)通(tōng)用(yòng)操(cāo)作(zuò)任(rèn)务(wu)中(zhōng)。
智(zhì)元(yuán)机(jī)器(qì)人(rén)表(biǎo)示(shì),通(tōng)过(guò)ViLLA 创(chuàng)新(xīn)性(xìng)架(jià)构(gòu),智(zhì)元(yuán)机(jī)器(qì)人(rén)在(zài)五(wǔ)种(zhǒng)不(bù)同(tóng)复(fù)杂(zá)度(dù)任(rèn)务(wu)上(shàng)测(cè)试(shì) GO-1大(dà)模(mó)型(xíng),相(xiāng)比(bǐ)已(yǐ)有(yǒu)的(de)最(zuì)优(yōu)模(mó)型(xíng),GO-1平(píng)均(jūn)成(chéng)功(gōng)率(lǜ)提(tí)高(gāo)了(le)32%。其(qí)中(zhōng)在“Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务中表现突出。此外,GO-1大模型还可以搭配智元一整套数据回流(liú)系(xì)统(tǒng),可以从实际执行遇到的问题数据中持续进化学习,“越用越聪明”。