最近,F(xiàn)igure AI 發(fā)布了首個(gè)通用視覺-語(yǔ)言-行動(dòng)(VLA)模型——Helix,其能像人類一樣推理,將感知、語(yǔ)言理解和學(xué)習(xí)控制融為一體,可以通過自然語(yǔ)言直接控制人形機(jī)器人整個(gè)上半身。
Helix 可以在沒有任何特定任務(wù)演示或大量手動(dòng)編程的情況下,快速生成長(zhǎng)程、協(xié)作性的靈巧操作。其實(shí)現(xiàn)了多個(gè)“首個(gè)”:
完整的上半身控制:Helix 是首個(gè)能夠?qū)φ麄€(gè)人形上半身(包括手腕、軀干、頭部和單個(gè)手指)輸出高速率連續(xù)控制的 VLA。
多機(jī)器人協(xié)作:Helix 是首個(gè)可在兩個(gè)機(jī)器人上同時(shí)運(yùn)行的 VLA,使它們能夠解決共享的長(zhǎng)程操作任務(wù),操作它們從未見過的物品。
可直接商用:Helix 是首個(gè)在完全板載嵌入式低功耗 GPU 上運(yùn)行的 VLA,可立即投入商業(yè)部署。
配備了 Helix 的 Figure 機(jī)器人只需根據(jù)自然語(yǔ)言提示,就能拾取幾乎任何小型家用物品,包括數(shù)以千計(jì)它們從未見過的物品。
例如,當(dāng)被要求“拾起沙漠中的物品”時(shí),Helix 會(huì)識(shí)別出玩具仙人掌,選擇最近的手,并執(zhí)行精確的運(yùn)動(dòng)指令將其牢牢抓住。
與之前的方法不同,Helix 使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重來(lái)學(xué)習(xí)所有行為——拾取和放置物品、使用抽屜和冰箱以及跨機(jī)器人交互——而無(wú)需針對(duì)具體任務(wù)進(jìn)行微調(diào)。
Figure AI 在 X 上表示,“機(jī)器人的功能如果不發(fā)生重大變化,就無(wú)法進(jìn)入家庭領(lǐng)域,現(xiàn)在,我們的機(jī)器人幾乎可以處理任何家庭用品?!?/p>
人形機(jī)器人的“New Scaling”
家庭是機(jī)器人技術(shù)面臨的最大挑戰(zhàn)。與受控的工業(yè)環(huán)境不同,家庭中充斥著無(wú)數(shù)物品——精致的玻璃器皿、皺巴巴的衣物、散落的玩具——每件物品的形狀、大小、顏色和質(zhì)地都難以預(yù)測(cè)。機(jī)器人要想在家庭中發(fā)揮作用,就必須能夠按需生成智能的新行為,尤其是針對(duì)它們從未見過的物體。
當(dāng)前的機(jī)器人技術(shù)如果不作出重大改變,就無(wú)法在家庭中使用。目前,即使是教機(jī)器人學(xué)會(huì)一種新行為,也需要大量的人力:要么是數(shù)小時(shí)的博士級(jí)專家手工編程,要么是數(shù)千次的演示。如果考慮到家庭問題的實(shí)際規(guī)模,這兩種方式的成本都非常高。
圖|獲取機(jī)器人新技能的不同方法的 Scaling 曲線。在傳統(tǒng)的啟發(fā)式操作中,技能會(huì)隨著手動(dòng)編寫腳本的博士們而增長(zhǎng);在傳統(tǒng)的機(jī)器人模仿學(xué)習(xí)中,技能隨著收集到的數(shù)據(jù)增長(zhǎng);而在 Helix 中,新技能可以用語(yǔ)言即時(shí)指定。
Figure AI 團(tuán)隊(duì)認(rèn)為,人工智能的其他領(lǐng)域已經(jīng)掌握了這種即時(shí)泛化的方法,如果能夠簡(jiǎn)單地將視覺語(yǔ)言模型(VLM)中捕捉到的豐富語(yǔ)義知識(shí)直接轉(zhuǎn)化為機(jī)器人動(dòng)作,將從根本上改變機(jī)器人技術(shù)的發(fā)展軌跡。
突然間,只需用自然語(yǔ)言與機(jī)器人對(duì)話,就能立即獲得曾經(jīng)需要數(shù)百次演示的新技能。但關(guān)鍵問題是:他們?nèi)绾螐?VLM 中提取所有這些常識(shí)性知識(shí),并將其轉(zhuǎn)化為可通用的機(jī)器人控制呢?
于是,他們構(gòu)建了 Helix。
Helix:用于整個(gè)上半身控制的“系統(tǒng) 1、系統(tǒng) 2”VLA
Helix 是首創(chuàng)的 “系統(tǒng) 1、系統(tǒng) 2 ”VLA 模型,用于對(duì)整個(gè)仿人上半身進(jìn)行高速、靈巧的控制。
之前的方法面臨著一個(gè)基本的權(quán)衡:VLM 骨架通用但不快速,而機(jī)器人視覺運(yùn)動(dòng)策略快速但不通用。Helix 通過兩個(gè)互補(bǔ)系統(tǒng)解決了這一問題,這兩個(gè)系統(tǒng)經(jīng)過端對(duì)端訓(xùn)練,可以進(jìn)行通信:
系統(tǒng) 2:經(jīng)過互聯(lián)網(wǎng)訓(xùn)練的板載 VLM,工作頻率為 7-9 Hz,用于場(chǎng)景理解和語(yǔ)言理解,可廣泛應(yīng)用于各種物體和環(huán)境。
系統(tǒng) 1:快速反應(yīng)視覺運(yùn)動(dòng)策略,將系統(tǒng) 2 生成的潛在語(yǔ)義表征轉(zhuǎn)化為 200 Hz 的精確連續(xù)機(jī)器人動(dòng)作。
這種解耦架構(gòu)允許每個(gè)系統(tǒng)以其最佳時(shí)間尺度運(yùn)行。系統(tǒng) 2 可以“慢思考”高層次目標(biāo),而系統(tǒng) 1 則可以“快思考”實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作。例如,在協(xié)作行為中,系統(tǒng) 1可快速適應(yīng)伙伴機(jī)器人不斷變化的動(dòng)作,同時(shí)保持系統(tǒng) 2 的語(yǔ)義目標(biāo)。
與現(xiàn)有方法相比,Helix 的設(shè)計(jì)具有幾大優(yōu)勢(shì):
速度和通用性:Helix 的速度可與專門的單任務(wù)行為克隆策略相媲美,同時(shí)還能對(duì)數(shù)千個(gè)新測(cè)試對(duì)象進(jìn)行零樣本泛化。
可擴(kuò)展性:Helix 可直接輸出高維動(dòng)作空間的連續(xù)控制,避免了先前 VLA 方法中使用的復(fù)雜動(dòng)作 token 化方案,這些方案在低維控制設(shè)置中取得了一定成功,但在高維仿人控制中面臨擴(kuò)展挑戰(zhàn)。
結(jié)構(gòu)簡(jiǎn)單:Helix 使用標(biāo)準(zhǔn)架構(gòu)——系統(tǒng) 2 使用開源、開放權(quán)重的 VLM,系統(tǒng) 1 使用基于 transformer 的簡(jiǎn)單視覺運(yùn)動(dòng)策略。
關(guān)注分離:將系統(tǒng) 1 和系統(tǒng) 2 分離開來(lái)后,可以分別對(duì)每個(gè)系統(tǒng)進(jìn)行迭代,而不必受制于尋找統(tǒng)一的觀察空間或動(dòng)作表示法。
模型和訓(xùn)練細(xì)節(jié)
1.數(shù)據(jù)
他們收集了一個(gè)高質(zhì)量、多機(jī)器人、多操作員的數(shù)據(jù)集,其中包含各種遠(yuǎn)程操作行為,總計(jì)約 500 小時(shí)。為了生成受自然語(yǔ)言約束的訓(xùn)練對(duì),他們使用了自動(dòng)標(biāo)注 VLM 來(lái)生成后見(hindsight)指令。VLM 處理來(lái)自機(jī)載機(jī)器人攝像頭的分段視頻片段,并給出提示:“你會(huì)給機(jī)器人下達(dá)什么指令,以實(shí)現(xiàn)視頻中的動(dòng)作?所有在訓(xùn)練過程中處理過的項(xiàng)目都不在評(píng)估范圍內(nèi),以防止污染。
2.架構(gòu)
這一系統(tǒng)由兩個(gè)主要部分組成:系統(tǒng) 2 是 VLM 骨干,系統(tǒng) 1 是潛條件視覺運(yùn)動(dòng) transformer。系統(tǒng) 2 基于一個(gè) 7B 參數(shù)的開源、開放權(quán)重 VLM,并在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。它將單目機(jī)器人圖像和機(jī)器人狀態(tài)信息(包括手腕姿勢(shì)和手指位置)投射到視覺語(yǔ)言嵌入空間后進(jìn)行處理。結(jié)合指定所需行為的自然語(yǔ)言指令,系統(tǒng) 2 將所有與任務(wù)相關(guān)的語(yǔ)義信息提煉為一個(gè)連續(xù)的潛在向量,并將其傳遞給系統(tǒng) 1,作為其底層動(dòng)作的條件。
系統(tǒng) 1 是一個(gè) 8000 萬(wàn)參數(shù)的交叉注意力編碼器-解碼器 transformer,用于處理底層控制。它依靠一個(gè)完全卷積、多尺度的視覺骨干網(wǎng)進(jìn)行視覺處理,該骨干網(wǎng)由完全在模擬中完成的預(yù)訓(xùn)練初始化而成。系統(tǒng) 1 接收與系統(tǒng) 2 相同的圖像和狀態(tài)輸入,但處理頻率更高,以實(shí)現(xiàn)反應(yīng)更靈敏的閉環(huán)控制。來(lái)自系統(tǒng) 2 的潛向量被投射到系統(tǒng) 1 的 token 空間,并與來(lái)自系統(tǒng) 1 視覺骨干的視覺特征沿序列維度進(jìn)行串聯(lián),從而提供任務(wù)條件。
系統(tǒng) 1 以 200hz 的頻率輸出完整的上半身仿人控制,包括所需的手腕姿勢(shì)、手指彎曲和外展控制,以及軀干和頭部方向目標(biāo)。他們?cè)趧?dòng)作空間中添加了一個(gè)合成的“任務(wù)完成百分比”動(dòng)作,使 Helix 能夠預(yù)測(cè)自己的終止條件,從而更容易地對(duì)多個(gè)學(xué)習(xí)行為進(jìn)行排序。
3.訓(xùn)練
Helix 采用完全端到端訓(xùn)練方式,通過標(biāo)準(zhǔn)回歸損耗將原始像素和文本指令映射為連續(xù)動(dòng)作。梯度通過用于調(diào)節(jié)系統(tǒng) 1 行為的潛在通信向量從系統(tǒng) 1 反向傳播到系統(tǒng) 2,從而對(duì)兩個(gè)組件進(jìn)行聯(lián)合優(yōu)化。Helix 無(wú)需針對(duì)特定任務(wù)進(jìn)行適應(yīng)性調(diào)整;它只需保持單一的訓(xùn)練階段和單一的神經(jīng)網(wǎng)絡(luò)權(quán)重集,而無(wú)需單獨(dú)的動(dòng)作頭或每個(gè)任務(wù)的微調(diào)階段。
在訓(xùn)練過程中,他們會(huì)在系統(tǒng) 1 和系統(tǒng) 2 輸入之間添加一個(gè)時(shí)間偏移。該偏移量經(jīng)過校準(zhǔn),與系統(tǒng) 1 和系統(tǒng) 2 部署推理延遲之間的差距相匹配,確保在訓(xùn)練中準(zhǔn)確反映部署過程中的實(shí)時(shí)控制要求。
4.優(yōu)化的流推理
Helix 的訓(xùn)練設(shè)計(jì)可在 Figure 機(jī)器人上實(shí)現(xiàn)高效的模型并行部署,每個(gè)機(jī)器人都配備了雙低功耗嵌入式 GPU。推理流水線分為系統(tǒng) 2(高級(jí)潛規(guī)劃)和系統(tǒng) 1(低級(jí)控制)模型,每個(gè)模型都在專用 GPU 上運(yùn)行。系統(tǒng) 1 作為異步后臺(tái)進(jìn)程運(yùn)行,消耗最新觀測(cè)數(shù)據(jù)(機(jī)載攝像頭和機(jī)器人狀態(tài))和自然語(yǔ)言指令。它不斷更新共享內(nèi)存中的潛在向量,該向量對(duì)高級(jí)行為意圖進(jìn)行編碼。
系統(tǒng) 1 作為一個(gè)獨(dú)立的實(shí)時(shí)進(jìn)程執(zhí)行,維持著整個(gè)上半身平滑動(dòng)作所需的關(guān)鍵 200Hz 控制回路。它同時(shí)獲取最新的觀測(cè)數(shù)據(jù)和最新的系統(tǒng) 2 潛在向量。系統(tǒng) 2 和系統(tǒng) 1 推理之間固有的速度差異自然會(huì)導(dǎo)致系統(tǒng) 1 以更高的時(shí)間分辨率處理機(jī)器人的觀察結(jié)果,從而為反應(yīng)控制創(chuàng)建更緊密的反饋回路。
這種部署策略有意反映了訓(xùn)練中引入的時(shí)間偏移,最大限度地縮小了訓(xùn)練-推理分布差距。異步執(zhí)行模型允許兩個(gè)進(jìn)程以各自的最佳頻率運(yùn)行,允許以最快的單任務(wù)模仿學(xué)習(xí)策略速度運(yùn)行 Helix。
表現(xiàn)怎么樣?
1.精細(xì)的 VLA 整個(gè)上半身控制
Helix 能以 200Hz 的頻率協(xié)調(diào) 35-DoF 的動(dòng)作空間,控制從單個(gè)手指運(yùn)動(dòng)到末端執(zhí)行器軌跡、頭部注視和軀干姿勢(shì)等一切動(dòng)作。頭部和軀干控制帶來(lái)了獨(dú)特的挑戰(zhàn),因?yàn)樗鼈兊囊苿?dòng)會(huì)同時(shí)改變機(jī)器人所能觸及的范圍和所能看到的范圍,從而形成反饋回路,這在歷史上曾造成不穩(wěn)定。
機(jī)器人在調(diào)整軀干以獲得最佳觸及范圍的同時(shí),還能用頭部平穩(wěn)地跟蹤雙手,同時(shí)保持手指的精確控制以進(jìn)行抓取。從歷史上看,在如此高維的動(dòng)作空間中實(shí)現(xiàn)如此高的精確度,即使是對(duì)單個(gè)已知任務(wù)而言,也是極具挑戰(zhàn)性的。研究團(tuán)隊(duì)表示,目前還沒有任何 VLA 系統(tǒng)能夠在保持跨任務(wù)和跨對(duì)象通用能力的同時(shí),實(shí)現(xiàn)如此程度的實(shí)時(shí)協(xié)調(diào)。
2.零樣本多機(jī)器人協(xié)調(diào)
他們?cè)谝粋€(gè)極具挑戰(zhàn)性的多機(jī)器人操控場(chǎng)景中將 Helix 推向了極限:兩個(gè) Figure 機(jī)器人之間的協(xié)作零樣本雜貨存儲(chǔ)。
結(jié)果顯示,機(jī)器人成功地操縱了全新的雜貨——在訓(xùn)練過程中從未遇到過的物品——展示了在不同形狀、尺寸和材料上的強(qiáng)大泛化能力。此外,兩個(gè)機(jī)器人使用相同的 Helix 模型權(quán)重進(jìn)行操作,無(wú)需進(jìn)行特定的機(jī)器人訓(xùn)練或明確的角色分配。它們通過自然語(yǔ)言提示實(shí)現(xiàn)協(xié)調(diào),例如“將一袋餅干遞給你右邊的機(jī)器人”或“從你左邊的機(jī)器人手中接過一袋餅干并將其放入打開的抽屜”。這標(biāo)志著首次展示了多個(gè)機(jī)器人使用 VLA 進(jìn)行靈活、擴(kuò)展的協(xié)作操縱,特別是在成功處理全新物體方面意義重大。
3.智能涌現(xiàn)——“撿起任何東西”
他們發(fā)現(xiàn),配備 Helix 的 Figure 機(jī)器人只需接收“拿起 [X]”的指令,就能拿起幾乎任何小型家用物品。在系統(tǒng)測(cè)試中,機(jī)器人成功處理了雜亂物品中的數(shù)千件新奇物品——從玻璃器皿和玩具到工具和衣物——而無(wú)需任何事先演示或定制編程。
尤其值得注意的是,Helix 是如何在互聯(lián)網(wǎng)規(guī)模的語(yǔ)言理解和精確的機(jī)器人控制之間架起橋梁的。例如,當(dāng)提示“拿起沙漠中的物品”時(shí),Helix 不僅能識(shí)別出符合這一抽象概念的玩具仙人掌,還能選擇最近的手,并執(zhí)行精確的運(yùn)動(dòng)指令,牢牢地抓住它。
這種通用的“從語(yǔ)言到行動(dòng)”的抓取能力為在非結(jié)構(gòu)化環(huán)境中部署人形機(jī)器人開辟了令人興奮的新可能性。
“僅僅觸及了可能的表面”
在這項(xiàng)研究中,Helix 展現(xiàn)出了訓(xùn)練效率高且僅需要單一權(quán)重集的特點(diǎn)。
在訓(xùn)練效率方面,Helix 以極少的資源實(shí)現(xiàn)了強(qiáng)大的對(duì)象泛化能力。研究團(tuán)隊(duì)總共使用了約 500 小時(shí)的高質(zhì)量監(jiān)督數(shù)據(jù)對(duì) Helix 進(jìn)行訓(xùn)練,其規(guī)模僅為之前收集的 VLA 數(shù)據(jù)集的一小部分(<5%),并且不依賴于多機(jī)器人-具身收集或多階段訓(xùn)練。他們注意到,這種收集規(guī)模與現(xiàn)代的單任務(wù)模仿學(xué)習(xí)數(shù)據(jù)集更相近。盡管對(duì)數(shù)據(jù)的要求相對(duì)較低,但 Helix 仍能擴(kuò)展到更具挑戰(zhàn)性的上半身人形控制動(dòng)作空間,并提供高速率、高維度的輸出。
同時(shí),Helix 只需一個(gè)統(tǒng)一的模型,就能在不同任務(wù)中實(shí)現(xiàn)強(qiáng)大的性能。只需使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重(系統(tǒng) 2 為 7B,系統(tǒng) 1 為 8000 萬(wàn)),Helix 就能在各種容器中拾取和放置物品,操作抽屜和冰箱,協(xié)調(diào)靈巧的多機(jī)器人交接,并操控?cái)?shù)千種新奇物品。
研究團(tuán)隊(duì)表示,雖然這些早期成果確實(shí)令人興奮,但這僅僅觸及了可能的表面。他們急切地想知道,當(dāng)他們將 Helix 的規(guī)模擴(kuò)大 1000 倍甚至更多時(shí)會(huì)發(fā)生什么。
整理:學(xué)術(shù)君