7月4日,在WAIC 2024科學(xué)前沿主論壇上,上海人工智能實(shí)驗(yàn)室(上海 AI 實(shí)驗(yàn)室)發(fā)布首個城市級具身智能仿真平臺浦源·桃源(以下簡稱“桃源仿真平臺”)。
作為大模型與機(jī)器人的連接層,桃源仿真平臺涵蓋89種功能性場景、10萬級別高質(zhì)量可交互數(shù)據(jù),構(gòu)建起“軟硬虛實(shí)”一體的機(jī)器人訓(xùn)練場。
具身自主探索是實(shí)現(xiàn)通專融合的有效手段,也是理解物理世界的AGI的必經(jīng)之路。通過構(gòu)建具有社會屬性的真實(shí)交互環(huán)境,桃源仿真平臺支持通用機(jī)器人從底層控制到高級任務(wù)執(zhí)行的全方位研究,有望解決領(lǐng)域內(nèi)數(shù)據(jù)匱乏、評測困難的問題,為同時攻關(guān)機(jī)器人的“大腦”與“小腦”提供強(qiáng)有力的基礎(chǔ)設(shè)施支持。
開源鏈接:
https://github.com/OpenRobotLab/GRUtopia
走進(jìn)虛擬“桃源”,走向繽紛現(xiàn)實(shí)
與大模型不同,具身智能的能力提升需要從交互中自主學(xué)習(xí)。在真實(shí)物理世界中對機(jī)器人進(jìn)行訓(xùn)練,存在著數(shù)據(jù)采集效率低下、復(fù)用性差、訓(xùn)練風(fēng)險高、評測困難等諸多瓶頸,因而,將在虛擬環(huán)境訓(xùn)練成果應(yīng)用于真實(shí)環(huán)境的“虛實(shí)遷移”(Simulation-to-Real)技術(shù),成為當(dāng)前具身智能領(lǐng)域的重點(diǎn)研究方向之一。
桃源仿真平臺可模擬各種復(fù)雜場景和機(jī)器人的行為模式,包括但不限于戶外作業(yè)、社交互動、家庭生活、工業(yè)生產(chǎn)、商業(yè)交易等,從而為具身智能體提供了具有社會屬性的虛擬社會。該平臺包含海量高質(zhì)量可交互場景數(shù)據(jù),并可借助AIGC技術(shù)生成多樣化、難度適中的具身智能任務(wù),建立相應(yīng)的評測體系,賦能具身智能大模型研發(fā)。
貼近現(xiàn)實(shí)的具身智能任務(wù)此外,借鑒人類運(yùn)動員的訓(xùn)練場景,桃源仿真平臺還為具身智能體構(gòu)建了訓(xùn)練場、陪練員及評分表。作為訓(xùn)練場的GRScenes場景數(shù)據(jù)集包含10萬級別高質(zhì)量、可交互場景數(shù)據(jù),首次覆蓋超市、醫(yī)院等 89 種功能性場景,提供語言描述、物體類別、部件、材質(zhì)等全方位標(biāo)注。在視覺真實(shí)性和物理真實(shí)性的打造過程中,研究團(tuán)隊(duì)與專業(yè)場景設(shè)計師團(tuán)隊(duì)合作,實(shí)現(xiàn)場景布局、物體紋理等方面的真實(shí),最大限度使虛擬場景與現(xiàn)實(shí)環(huán)境接軌。同時,GRScenes中的物體具備真實(shí)的部件設(shè)計、物理屬性及內(nèi)部建模,并基于Isaac Sim算法進(jìn)行物理仿真,為具身智能訓(xùn)練提供了真實(shí)的場景交互反饋。通過人工標(biāo)注和多模態(tài)大模型的應(yīng)用,場景中的所有區(qū)域、物體具有類別、材質(zhì)等標(biāo)注,為具身智能訓(xùn)練提供了可參考的物理場景指標(biāo)。
多種功能類型場景GRResidents角色交互系統(tǒng)相當(dāng)于陪練員,由LLM驅(qū)動智能虛擬角色進(jìn)行具身任務(wù)生成與分發(fā),為平臺提供交互社交屬性。構(gòu)建“以人為中心”的通用機(jī)器人系統(tǒng)對具身智能研究尤為重要。在真實(shí)應(yīng)用中,機(jī)器人通常需要與用戶進(jìn)行多輪交互,以明確指令目標(biāo),提升執(zhí)行效率。由大模型智能體框架構(gòu)成的GRResidents,利用多模態(tài)大模型和系統(tǒng)API,從場景中提取物體描述、空間關(guān)系和區(qū)域描述等高層語義信息,并通過全局信息管理器(World Knowledge Manger)將這些信息組織成智能體可調(diào)用的環(huán)境感知 API。由大模型驅(qū)動的NPC(非玩家角色)相當(dāng)于仿真平臺中的“居民”,他們可依據(jù)對話及環(huán)境感知 API 進(jìn)行信息提取和推理,從而進(jìn)行開放形式對話。在此基礎(chǔ)之上,這些 NPC 能夠通過采樣將場景信息進(jìn)行智能組合,進(jìn)而生成多種形式的具身任務(wù),供具身智能體訓(xùn)練。
大模型驅(qū)動的NPC系統(tǒng)
GRResidents: 智能虛擬角色系統(tǒng)評分表由GRBench評測體系完成,支持對多類機(jī)器人及任意任務(wù)進(jìn)行客觀評測。目前,桃源仿真平臺支持多種類型機(jī)器人的訓(xùn)練評測,包括對機(jī)械臂、輪式機(jī)器人、四足機(jī)器人、人形機(jī)器人的運(yùn)動控制算法及訓(xùn)練。用戶通過即插即用式 API 調(diào)用,即可在任意任務(wù)中模擬真實(shí)的控制過程,并還原規(guī)劃過程中的各類場景。未來,桃源仿真平臺還將通過持續(xù)迭代,拓展對更多類型具身智能體的支持。
桃源仿真平臺支持各類型機(jī)器人及任務(wù)評測,并提供控制算法及生態(tài)工具鏈基于桃源仿真平臺,上海AI實(shí)驗(yàn)室為具身智能研究構(gòu)建起生態(tài)工具鏈,為打通各平臺壁壘,充分利用各類具身智能控制開源算法,提供了首個跨平臺控制算法的遷移工具包。使用工具包,用戶可一鍵將Isaac Gym、Isaac Lab等具身智能開源社區(qū)的控制算法遷移至桃源仿真平臺。在人機(jī)交互方面,研究團(tuán)隊(duì)還打造了支持多模態(tài)交互與機(jī)器人控制的全新交互界面,便于研究者進(jìn)行算法演示和調(diào)試,進(jìn)一步提升研究效率。