日本网站在线观看,爆乳2把你榨干哦ova在线观看,大地影院MV高清在线观看免费

最近，F(xiàn)igure AI 發(fā)布了首個(gè)通用視覺-語(yǔ)言-行動(dòng)（VLA）模型——Helix，其能像人類一樣推理，將感知、語(yǔ)言理解和學(xué)習(xí)控制融為一體，可以通過自然語(yǔ)言直接控制人形機(jī)器人整個(gè)上半身。

Helix 可以在沒有任何特定任務(wù)演示或大量手動(dòng)編程的情況下，快速生成長(zhǎng)程、協(xié)作性的靈巧操作。其實(shí)現(xiàn)了多個(gè)“首個(gè)”：

完整的上半身控制：Helix 是首個(gè)能夠?qū)φ麄€(gè)人形上半身（包括手腕、軀干、頭部和單個(gè)手指）輸出高速率連續(xù)控制的 VLA。

多機(jī)器人協(xié)作：Helix 是首個(gè)可在兩個(gè)機(jī)器人上同時(shí)運(yùn)行的 VLA，使它們能夠解決共享的長(zhǎng)程操作任務(wù)，操作它們從未見過的物品。

可直接商用：Helix 是首個(gè)在完全板載嵌入式低功耗 GPU 上運(yùn)行的 VLA，可立即投入商業(yè)部署。

配備了 Helix 的 Figure 機(jī)器人只需根據(jù)自然語(yǔ)言提示，就能拾取幾乎任何小型家用物品，包括數(shù)以千計(jì)它們從未見過的物品。
例如，當(dāng)被要求“拾起沙漠中的物品”時(shí)，Helix 會(huì)識(shí)別出玩具仙人掌，選擇最近的手，并執(zhí)行精確的運(yùn)動(dòng)指令將其牢牢抓住。
與之前的方法不同，Helix 使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重來(lái)學(xué)習(xí)所有行為——拾取和放置物品、使用抽屜和冰箱以及跨機(jī)器人交互——而無(wú)需針對(duì)具體任務(wù)進(jìn)行微調(diào)。
Figure AI 在 X 上表示，“機(jī)器人的功能如果不發(fā)生重大變化，就無(wú)法進(jìn)入家庭領(lǐng)域，現(xiàn)在，我們的機(jī)器人幾乎可以處理任何家庭用品?！?/p>

人形機(jī)器人的“New Scaling”

家庭是機(jī)器人技術(shù)面臨的最大挑戰(zhàn)。與受控的工業(yè)環(huán)境不同，家庭中充斥著無(wú)數(shù)物品——精致的玻璃器皿、皺巴巴的衣物、散落的玩具——每件物品的形狀、大小、顏色和質(zhì)地都難以預(yù)測(cè)。機(jī)器人要想在家庭中發(fā)揮作用，就必須能夠按需生成智能的新行為，尤其是針對(duì)它們從未見過的物體。

當(dāng)前的機(jī)器人技術(shù)如果不作出重大改變，就無(wú)法在家庭中使用。目前，即使是教機(jī)器人學(xué)會(huì)一種新行為，也需要大量的人力：要么是數(shù)小時(shí)的博士級(jí)專家手工編程，要么是數(shù)千次的演示。如果考慮到家庭問題的實(shí)際規(guī)模，這兩種方式的成本都非常高。

圖｜獲取機(jī)器人新技能的不同方法的 Scaling 曲線。在傳統(tǒng)的啟發(fā)式操作中，技能會(huì)隨著手動(dòng)編寫腳本的博士們而增長(zhǎng)；在傳統(tǒng)的機(jī)器人模仿學(xué)習(xí)中，技能隨著收集到的數(shù)據(jù)增長(zhǎng)；而在 Helix 中，新技能可以用語(yǔ)言即時(shí)指定。

Figure AI 團(tuán)隊(duì)認(rèn)為，人工智能的其他領(lǐng)域已經(jīng)掌握了這種即時(shí)泛化的方法，如果能夠簡(jiǎn)單地將視覺語(yǔ)言模型（VLM）中捕捉到的豐富語(yǔ)義知識(shí)直接轉(zhuǎn)化為機(jī)器人動(dòng)作，將從根本上改變機(jī)器人技術(shù)的發(fā)展軌跡。

突然間，只需用自然語(yǔ)言與機(jī)器人對(duì)話，就能立即獲得曾經(jīng)需要數(shù)百次演示的新技能。但關(guān)鍵問題是：他們?nèi)绾螐?VLM 中提取所有這些常識(shí)性知識(shí)，并將其轉(zhuǎn)化為可通用的機(jī)器人控制呢？

于是，他們構(gòu)建了 Helix。

Helix：用于整個(gè)上半身控制的“系統(tǒng) 1、系統(tǒng) 2”VLA
Helix 是首創(chuàng)的 “系統(tǒng) 1、系統(tǒng) 2 ”VLA 模型，用于對(duì)整個(gè)仿人上半身進(jìn)行高速、靈巧的控制。

之前的方法面臨著一個(gè)基本的權(quán)衡：VLM 骨架通用但不快速，而機(jī)器人視覺運(yùn)動(dòng)策略快速但不通用。Helix 通過兩個(gè)互補(bǔ)系統(tǒng)解決了這一問題，這兩個(gè)系統(tǒng)經(jīng)過端對(duì)端訓(xùn)練，可以進(jìn)行通信：

系統(tǒng) 2：經(jīng)過互聯(lián)網(wǎng)訓(xùn)練的板載 VLM，工作頻率為 7-9 Hz，用于場(chǎng)景理解和語(yǔ)言理解，可廣泛應(yīng)用于各種物體和環(huán)境。

系統(tǒng) 1：快速反應(yīng)視覺運(yùn)動(dòng)策略，將系統(tǒng) 2 生成的潛在語(yǔ)義表征轉(zhuǎn)化為 200 Hz 的精確連續(xù)機(jī)器人動(dòng)作。

這種解耦架構(gòu)允許每個(gè)系統(tǒng)以其最佳時(shí)間尺度運(yùn)行。系統(tǒng) 2 可以“慢思考”高層次目標(biāo)，而系統(tǒng) 1 則可以“快思考”實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作。例如，在協(xié)作行為中，系統(tǒng) 1可快速適應(yīng)伙伴機(jī)器人不斷變化的動(dòng)作，同時(shí)保持系統(tǒng) 2 的語(yǔ)義目標(biāo)。

與現(xiàn)有方法相比，Helix 的設(shè)計(jì)具有幾大優(yōu)勢(shì)：

速度和通用性：Helix 的速度可與專門的單任務(wù)行為克隆策略相媲美，同時(shí)還能對(duì)數(shù)千個(gè)新測(cè)試對(duì)象進(jìn)行零樣本泛化。

可擴(kuò)展性：Helix 可直接輸出高維動(dòng)作空間的連續(xù)控制，避免了先前 VLA 方法中使用的復(fù)雜動(dòng)作 token 化方案，這些方案在低維控制設(shè)置中取得了一定成功，但在高維仿人控制中面臨擴(kuò)展挑戰(zhàn)。

結(jié)構(gòu)簡(jiǎn)單：Helix 使用標(biāo)準(zhǔn)架構(gòu)——系統(tǒng) 2 使用開源、開放權(quán)重的 VLM，系統(tǒng) 1 使用基于 transformer 的簡(jiǎn)單視覺運(yùn)動(dòng)策略。

關(guān)注分離：將系統(tǒng) 1 和系統(tǒng) 2 分離開來(lái)后，可以分別對(duì)每個(gè)系統(tǒng)進(jìn)行迭代，而不必受制于尋找統(tǒng)一的觀察空間或動(dòng)作表示法。

模型和訓(xùn)練細(xì)節(jié)

1.數(shù)據(jù)

他們收集了一個(gè)高質(zhì)量、多機(jī)器人、多操作員的數(shù)據(jù)集，其中包含各種遠(yuǎn)程操作行為，總計(jì)約 500 小時(shí)。為了生成受自然語(yǔ)言約束的訓(xùn)練對(duì)，他們使用了自動(dòng)標(biāo)注 VLM 來(lái)生成后見（hindsight）指令。VLM 處理來(lái)自機(jī)載機(jī)器人攝像頭的分段視頻片段，并給出提示：“你會(huì)給機(jī)器人下達(dá)什么指令，以實(shí)現(xiàn)視頻中的動(dòng)作？所有在訓(xùn)練過程中處理過的項(xiàng)目都不在評(píng)估范圍內(nèi)，以防止污染。

2.架構(gòu)

這一系統(tǒng)由兩個(gè)主要部分組成：系統(tǒng) 2 是 VLM 骨干，系統(tǒng) 1 是潛條件視覺運(yùn)動(dòng) transformer。系統(tǒng) 2 基于一個(gè) 7B 參數(shù)的開源、開放權(quán)重 VLM，并在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。它將單目機(jī)器人圖像和機(jī)器人狀態(tài)信息（包括手腕姿勢(shì)和手指位置）投射到視覺語(yǔ)言嵌入空間后進(jìn)行處理。結(jié)合指定所需行為的自然語(yǔ)言指令，系統(tǒng) 2 將所有與任務(wù)相關(guān)的語(yǔ)義信息提煉為一個(gè)連續(xù)的潛在向量，并將其傳遞給系統(tǒng) 1，作為其底層動(dòng)作的條件。

系統(tǒng) 1 是一個(gè) 8000 萬(wàn)參數(shù)的交叉注意力編碼器-解碼器 transformer，用于處理底層控制。它依靠一個(gè)完全卷積、多尺度的視覺骨干網(wǎng)進(jìn)行視覺處理，該骨干網(wǎng)由完全在模擬中完成的預(yù)訓(xùn)練初始化而成。系統(tǒng) 1 接收與系統(tǒng) 2 相同的圖像和狀態(tài)輸入，但處理頻率更高，以實(shí)現(xiàn)反應(yīng)更靈敏的閉環(huán)控制。來(lái)自系統(tǒng) 2 的潛向量被投射到系統(tǒng) 1 的 token 空間，并與來(lái)自系統(tǒng) 1 視覺骨干的視覺特征沿序列維度進(jìn)行串聯(lián)，從而提供任務(wù)條件。

系統(tǒng) 1 以 200hz 的頻率輸出完整的上半身仿人控制，包括所需的手腕姿勢(shì)、手指彎曲和外展控制，以及軀干和頭部方向目標(biāo)。他們?cè)趧?dòng)作空間中添加了一個(gè)合成的“任務(wù)完成百分比”動(dòng)作，使 Helix 能夠預(yù)測(cè)自己的終止條件，從而更容易地對(duì)多個(gè)學(xué)習(xí)行為進(jìn)行排序。

3.訓(xùn)練

Helix 采用完全端到端訓(xùn)練方式，通過標(biāo)準(zhǔn)回歸損耗將原始像素和文本指令映射為連續(xù)動(dòng)作。梯度通過用于調(diào)節(jié)系統(tǒng) 1 行為的潛在通信向量從系統(tǒng) 1 反向傳播到系統(tǒng) 2，從而對(duì)兩個(gè)組件進(jìn)行聯(lián)合優(yōu)化。Helix 無(wú)需針對(duì)特定任務(wù)進(jìn)行適應(yīng)性調(diào)整；它只需保持單一的訓(xùn)練階段和單一的神經(jīng)網(wǎng)絡(luò)權(quán)重集，而無(wú)需單獨(dú)的動(dòng)作頭或每個(gè)任務(wù)的微調(diào)階段。

在訓(xùn)練過程中，他們會(huì)在系統(tǒng) 1 和系統(tǒng) 2 輸入之間添加一個(gè)時(shí)間偏移。該偏移量經(jīng)過校準(zhǔn)，與系統(tǒng) 1 和系統(tǒng) 2 部署推理延遲之間的差距相匹配，確保在訓(xùn)練中準(zhǔn)確反映部署過程中的實(shí)時(shí)控制要求。

4.優(yōu)化的流推理

Helix 的訓(xùn)練設(shè)計(jì)可在 Figure 機(jī)器人上實(shí)現(xiàn)高效的模型并行部署，每個(gè)機(jī)器人都配備了雙低功耗嵌入式 GPU。推理流水線分為系統(tǒng) 2（高級(jí)潛規(guī)劃）和系統(tǒng) 1（低級(jí)控制）模型，每個(gè)模型都在專用 GPU 上運(yùn)行。系統(tǒng) 1 作為異步后臺(tái)進(jìn)程運(yùn)行，消耗最新觀測(cè)數(shù)據(jù)（機(jī)載攝像頭和機(jī)器人狀態(tài)）和自然語(yǔ)言指令。它不斷更新共享內(nèi)存中的潛在向量，該向量對(duì)高級(jí)行為意圖進(jìn)行編碼。

系統(tǒng) 1 作為一個(gè)獨(dú)立的實(shí)時(shí)進(jìn)程執(zhí)行，維持著整個(gè)上半身平滑動(dòng)作所需的關(guān)鍵 200Hz 控制回路。它同時(shí)獲取最新的觀測(cè)數(shù)據(jù)和最新的系統(tǒng) 2 潛在向量。系統(tǒng) 2 和系統(tǒng) 1 推理之間固有的速度差異自然會(huì)導(dǎo)致系統(tǒng) 1 以更高的時(shí)間分辨率處理機(jī)器人的觀察結(jié)果，從而為反應(yīng)控制創(chuàng)建更緊密的反饋回路。

這種部署策略有意反映了訓(xùn)練中引入的時(shí)間偏移，最大限度地縮小了訓(xùn)練-推理分布差距。異步執(zhí)行模型允許兩個(gè)進(jìn)程以各自的最佳頻率運(yùn)行，允許以最快的單任務(wù)模仿學(xué)習(xí)策略速度運(yùn)行 Helix。

表現(xiàn)怎么樣？

1.精細(xì)的 VLA 整個(gè)上半身控制

Helix 能以 200Hz 的頻率協(xié)調(diào) 35-DoF 的動(dòng)作空間，控制從單個(gè)手指運(yùn)動(dòng)到末端執(zhí)行器軌跡、頭部注視和軀干姿勢(shì)等一切動(dòng)作。頭部和軀干控制帶來(lái)了獨(dú)特的挑戰(zhàn)，因?yàn)樗鼈兊囊苿?dòng)會(huì)同時(shí)改變機(jī)器人所能觸及的范圍和所能看到的范圍，從而形成反饋回路，這在歷史上曾造成不穩(wěn)定。

機(jī)器人在調(diào)整軀干以獲得最佳觸及范圍的同時(shí)，還能用頭部平穩(wěn)地跟蹤雙手，同時(shí)保持手指的精確控制以進(jìn)行抓取。從歷史上看，在如此高維的動(dòng)作空間中實(shí)現(xiàn)如此高的精確度，即使是對(duì)單個(gè)已知任務(wù)而言，也是極具挑戰(zhàn)性的。研究團(tuán)隊(duì)表示，目前還沒有任何 VLA 系統(tǒng)能夠在保持跨任務(wù)和跨對(duì)象通用能力的同時(shí)，實(shí)現(xiàn)如此程度的實(shí)時(shí)協(xié)調(diào)。

2.零樣本多機(jī)器人協(xié)調(diào)

他們?cè)谝粋€(gè)極具挑戰(zhàn)性的多機(jī)器人操控場(chǎng)景中將 Helix 推向了極限：兩個(gè) Figure 機(jī)器人之間的協(xié)作零樣本雜貨存儲(chǔ)。

結(jié)果顯示，機(jī)器人成功地操縱了全新的雜貨——在訓(xùn)練過程中從未遇到過的物品——展示了在不同形狀、尺寸和材料上的強(qiáng)大泛化能力。此外，兩個(gè)機(jī)器人使用相同的 Helix 模型權(quán)重進(jìn)行操作，無(wú)需進(jìn)行特定的機(jī)器人訓(xùn)練或明確的角色分配。它們通過自然語(yǔ)言提示實(shí)現(xiàn)協(xié)調(diào)，例如“將一袋餅干遞給你右邊的機(jī)器人”或“從你左邊的機(jī)器人手中接過一袋餅干并將其放入打開的抽屜”。這標(biāo)志著首次展示了多個(gè)機(jī)器人使用 VLA 進(jìn)行靈活、擴(kuò)展的協(xié)作操縱，特別是在成功處理全新物體方面意義重大。

3.智能涌現(xiàn)——“撿起任何東西”

他們發(fā)現(xiàn)，配備 Helix 的 Figure 機(jī)器人只需接收“拿起 [X]”的指令，就能拿起幾乎任何小型家用物品。在系統(tǒng)測(cè)試中，機(jī)器人成功處理了雜亂物品中的數(shù)千件新奇物品——從玻璃器皿和玩具到工具和衣物——而無(wú)需任何事先演示或定制編程。

尤其值得注意的是，Helix 是如何在互聯(lián)網(wǎng)規(guī)模的語(yǔ)言理解和精確的機(jī)器人控制之間架起橋梁的。例如，當(dāng)提示“拿起沙漠中的物品”時(shí)，Helix 不僅能識(shí)別出符合這一抽象概念的玩具仙人掌，還能選擇最近的手，并執(zhí)行精確的運(yùn)動(dòng)指令，牢牢地抓住它。

這種通用的“從語(yǔ)言到行動(dòng)”的抓取能力為在非結(jié)構(gòu)化環(huán)境中部署人形機(jī)器人開辟了令人興奮的新可能性。

“僅僅觸及了可能的表面”

在這項(xiàng)研究中，Helix 展現(xiàn)出了訓(xùn)練效率高且僅需要單一權(quán)重集的特點(diǎn)。

在訓(xùn)練效率方面，Helix 以極少的資源實(shí)現(xiàn)了強(qiáng)大的對(duì)象泛化能力。研究團(tuán)隊(duì)總共使用了約 500 小時(shí)的高質(zhì)量監(jiān)督數(shù)據(jù)對(duì) Helix 進(jìn)行訓(xùn)練，其規(guī)模僅為之前收集的 VLA 數(shù)據(jù)集的一小部分（<5%），并且不依賴于多機(jī)器人-具身收集或多階段訓(xùn)練。他們注意到，這種收集規(guī)模與現(xiàn)代的單任務(wù)模仿學(xué)習(xí)數(shù)據(jù)集更相近。盡管對(duì)數(shù)據(jù)的要求相對(duì)較低，但 Helix 仍能擴(kuò)展到更具挑戰(zhàn)性的上半身人形控制動(dòng)作空間，并提供高速率、高維度的輸出。

同時(shí)，Helix 只需一個(gè)統(tǒng)一的模型，就能在不同任務(wù)中實(shí)現(xiàn)強(qiáng)大的性能。只需使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重（系統(tǒng) 2 為 7B，系統(tǒng) 1 為 8000 萬(wàn)），Helix 就能在各種容器中拾取和放置物品，操作抽屜和冰箱，協(xié)調(diào)靈巧的多機(jī)器人交接，并操控?cái)?shù)千種新奇物品。

研究團(tuán)隊(duì)表示，雖然這些早期成果確實(shí)令人興奮，但這僅僅觸及了可能的表面。他們急切地想知道，當(dāng)他們將 Helix 的規(guī)模擴(kuò)大 1000 倍甚至更多時(shí)會(huì)發(fā)生什么。

整理：學(xué)術(shù)君

機(jī)器人大升級(jí)？像人類一樣推理，“拿捏”任意家庭用品！

機(jī)器人大升級(jí)？像人類一樣推理，“拿捏”任意家庭用品！