寫在前面:
當(dāng)今正處在科技迅猛發(fā)展的時(shí)代,人工智能技術(shù)的應(yīng)用與創(chuàng)新已經(jīng)滲透到各個(gè)領(lǐng)域,并為人類的生活與工作帶來了深遠(yuǎn)的影響?!熬呱碇悄堋笔侨斯ぶ悄芘c物理實(shí)體結(jié)合的產(chǎn)物,正逐漸成為推動科技發(fā)展和產(chǎn)業(yè)變革的重要力量。5月17日是世界電信日,科普中國聯(lián)合中國移動科學(xué)技術(shù)協(xié)會特別策劃“具身智能”系列內(nèi)容,為您詳細(xì)解讀。
(二) 技術(shù)篇
寫在前面:通過前面一章的背景介紹,我們了解了具身智能的相關(guān)概念和發(fā)展歷程。下面我們將結(jié)合論文探討一下相關(guān)的技術(shù)。
通過前面的相關(guān)概念,我們了解到虛擬空間中的智能體可以被稱為離身人工智能,而物理空間中的智能體則是具身人工智能,即具身智能。具身智能是連接虛擬與真實(shí)世界的橋梁,其核心在于通過物理實(shí)體(如機(jī)器人)與環(huán)境的主動交互,實(shí)現(xiàn)智能的具象化。下面是參考論文[4]給出的參考框架。
圖4 具身智能體框架[4]
具身智能體必須充分理解語言指令中的人類意圖,主動探索周圍環(huán)境,全面感知來自虛擬和物理環(huán)境的多模態(tài)元素,并針對復(fù)雜任務(wù)執(zhí)行恰當(dāng)?shù)膭幼鳌I蠄D是圍繞身智能體展開的具身智能總體框架,通過整合多種技術(shù)和方法,實(shí)現(xiàn)了在虛擬和物理環(huán)境中的感知、交互和任務(wù)執(zhí)行。下面從具身機(jī)器人、具身仿真平臺、具身感知、具身交互、具身智能體、虛擬到現(xiàn)實(shí)的遷移幾個(gè)方面展開分析。
具身機(jī)器人
是具身智能在物理世界中的硬件方案。具身智能體積極與物理環(huán)境互動,涵蓋了廣泛的具身形態(tài),包括機(jī)器人、智能家電、智能眼鏡和自動駕駛車輛等。其中,機(jī)器人作為最突出的具身形態(tài)之一,備受關(guān)注。根據(jù)不同的應(yīng)用場景,機(jī)器人被設(shè)計(jì)成各種形式,以充分利用其硬件特性來完成特定任務(wù)。如下圖所示,具身機(jī)器人一般可分為:固定基座型機(jī)器人,如機(jī)械臂,常應(yīng)用在實(shí)驗(yàn)室自動化合成、教育、工業(yè)等領(lǐng)域中;輪式機(jī)器人,廣泛應(yīng)用于物流、倉儲和安全檢查;履帶機(jī)器人,具有強(qiáng)大的越野能力和機(jī)動性,在農(nóng)業(yè)、建筑和災(zāi)難場景的應(yīng)對方面顯示出潛力;四足機(jī)器人,以其穩(wěn)定性和適應(yīng)性而聞名,非常適合復(fù)雜地形的探測、救援任務(wù)和軍事應(yīng)用;人形機(jī)器人,以其靈巧手為關(guān)鍵,在服務(wù)業(yè)、醫(yī)療保健和協(xié)作環(huán)境等領(lǐng)域廣泛應(yīng)用;仿生機(jī)器人,通過模擬自然生物的有效運(yùn)動和功能,在復(fù)雜和動態(tài)的環(huán)境中執(zhí)行任務(wù)。
圖5 具身機(jī)器人分類[4]
具身智能仿真平臺
具身智能仿真平臺對于具身智能至關(guān)重要,因?yàn)樗鼈兲峁┝顺杀拘б娓叩膶?shí)驗(yàn)手段,能夠通過模擬潛在的危險(xiǎn)場景來確保安全,具有在多樣環(huán)境中進(jìn)行測試的可擴(kuò)展性,具備快速原型設(shè)計(jì)能力,能夠?yàn)楦鼜V泛的研究群體提供便利,提供用于精確研究的可控環(huán)境,生成用于訓(xùn)練和評估的數(shù)據(jù),并提供算法比較的標(biāo)準(zhǔn)化基準(zhǔn)。為了使智能體能夠與環(huán)境互動,必須構(gòu)建一個(gè)逼真的模擬環(huán)境。這需要考慮環(huán)境的物理特性、對象的屬性及其相互作用。如下圖所示,兩種仿真平臺進(jìn),基于底層仿真的通用平臺和基于真實(shí)場景的仿真平臺。
圖6 底層仿真的通用平臺[4]
圖7 基于真實(shí)場景的仿真平臺[4]
具身感知
以具身為中心的視覺推理和社會智能。如下圖所示,不同于僅僅識別圖像中的物體,具有具身感知能力的智能體必須在物理世界中移動并與環(huán)境互動,這需要對三維空間和動態(tài)環(huán)境有更透徹的理解。具身感知需要具備視覺感知和推理能力,理解場景中的三維關(guān)系,并基于視覺信息預(yù)測和執(zhí)行復(fù)雜任務(wù)??梢灾鲃右曈X感知、3D 視覺定位、視覺語言導(dǎo)航、非視覺感知(觸覺傳感器)等實(shí)現(xiàn)。
圖8 理解場景三維關(guān)系[4]
主動視覺感知:主動視覺感知系統(tǒng)需要狀態(tài)估計(jì)、場景感知和環(huán)境探索等基本功能。這些功能已在視覺同步定位和地圖構(gòu)建,可以感知系統(tǒng),促進(jìn)在復(fù)雜、動態(tài)的環(huán)境中改善環(huán)境交互和導(dǎo)航。
三維視覺定位:與在平面圖像范圍內(nèi)運(yùn)行的傳統(tǒng) 2D 視覺定位,3D視覺定位結(jié)合了對象之間的深度、透視和空間關(guān)系,為代理與其環(huán)境交互提供更強(qiáng)大的框架。視覺語言導(dǎo)航: 旨在使代理能夠按照語言指令在看不見的環(huán)境中導(dǎo)航。要求機(jī)器人理解復(fù)雜多樣的視覺觀察,同時(shí)以不同的粒度解釋指令。輸入通常由兩部分組成:視覺信息和自然語言指令。非視覺感知(觸覺):接觸式傳感器為試劑提供質(zhì)地、硬度和溫度等詳細(xì)信息。對于相同的動作,從視覺和觸覺傳感器中學(xué)到的知識可能是相關(guān)和互補(bǔ)的,使機(jī)器人能夠完全掌握手中的高精度任務(wù)。具身交互具身交互指的是智能體在物理或模擬空間中與人類和環(huán)境互動的場景。典型的具身交互任務(wù)包括具身問答和具身抓取。如下圖所示,在具身問答任務(wù)中,智能體需要從第一人稱視角探索環(huán)境,以收集回答問題所需的信息。具有自主探索和決策能力的智能體不僅要考慮采取哪些行動來探索環(huán)境,還需決定何時(shí)停止探索以回答問題,如下圖所示。
圖9 具身問答框架[4]
除了與人類進(jìn)行問答交互外,具身交互還涉及基于人類指令執(zhí)行操作,例如抓取和放置物體,從而完成智能體、人類和物體之間的交互。如圖所示,具身抓取需要全面的語義理解、場景感知、決策和穩(wěn)健的控制規(guī)劃。具身抓取方法將傳統(tǒng)的機(jī)器人運(yùn)動學(xué)抓取與大型模型(如大語言模型和視覺語言基礎(chǔ)模型)相結(jié)合,使智能體能夠在多感官感知下執(zhí)行抓取任務(wù),包括視覺主動感知、語言理解和推理。
圖10 語言引導(dǎo)的交互式抓取框架[4]
具身智能體
智能體被定義為能夠感知環(huán)境并采取行動以實(shí)現(xiàn)特定目標(biāo)的自主實(shí)體。多模態(tài)大模型的最新進(jìn)展進(jìn)一步擴(kuò)大了智能體在實(shí)際場景中的應(yīng)用。當(dāng)這些基于多模態(tài)大模型的智能體被具身化為物理實(shí)體時(shí),它們能夠有效地將其能力從虛擬空間轉(zhuǎn)移到物理世界,從而成為具身智能體。為了使具身智能體在信息豐富且復(fù)雜的現(xiàn)實(shí)世界中運(yùn)行,它們已經(jīng)被開發(fā)出強(qiáng)大的多模態(tài)感知、交互和規(guī)劃能力。如下圖所示,為了完成任務(wù),具身智能體通常涉及以下過程:將抽象而復(fù)雜的任務(wù)分解為具體的子任務(wù),即高層次的具身任務(wù)規(guī)劃;通過有效利用具身感知和具身交互模型,或利用基礎(chǔ)模型的策略功能,逐步實(shí)施這些子任務(wù),這被稱為低層次的具身行動規(guī)劃。值得注意的是,任務(wù)規(guī)劃涉及在行動前進(jìn)行思考,因此通常在數(shù)字空間中考慮。相比之下,行動規(guī)劃必須考慮與環(huán)境的有效互動,并將這些信息反饋給任務(wù)規(guī)劃器以調(diào)整任務(wù)規(guī)劃。因此,對于具身智能體來說,將其能力從數(shù)字空間對齊并推廣到物理世界至關(guān)重要。
圖11 基于多模態(tài)大模型的具身智能體框架[4]
虛擬到現(xiàn)實(shí)的遷移
具身智能中的虛擬到現(xiàn)實(shí)的遷移指的是將模擬環(huán)境(數(shù)字空間)中學(xué)習(xí)到的能力或行為轉(zhuǎn)移到現(xiàn)實(shí)世界(物理世界)中的過程。該過程包括驗(yàn)證和改進(jìn)在仿真中開發(fā)的算法、模型和控制策略的有效性,以確保它們在物理環(huán)境中表現(xiàn)得穩(wěn)定可靠。為了實(shí)現(xiàn)仿真到現(xiàn)實(shí)的適應(yīng),具身世界模型、數(shù)據(jù)收集與訓(xùn)練方法以及具身控制算法是三個(gè)關(guān)鍵要素,下圖展示了五種不同的范式。
圖12 虛擬到現(xiàn)實(shí)的遷移方案[4]
總之,具身智能使智能體能夠感知、認(rèn)知并與數(shù)字空間和物理世界中的各種物體互動,顯示了其在實(shí)現(xiàn)通用人工智能方面的重要意義。
【參考資料】
[1] 莫里斯·梅洛-龐蒂. 知覺現(xiàn)象學(xué). 姜志輝, 譯. 北京: 商務(wù)印書館, 2001[2] 中國計(jì)算機(jī)學(xué)會,《具身智能》,2023[3] Merleau-Ponty, M. (1945). Phénoménologie de la perception. Gallimard.Pfeifer, R., & Bongard, J. (2006). [4] Liu, Yang, et al. “Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI.” arXiv preprint arXiv:2407.06886, 2024.[5]《科技熱詞“具身智能”到底是什么?》,中科院物理所[6]《具身智能時(shí)代來了?》,中國報(bào)道[7] Brooks, R. A. (1991). Intelligence Without Representation. Artificial Intelligence, 47(1-3), 139–159.
[8] Lakoff, G., & Johnson, M. (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Thought. Basic Books.
[9] Pfeifer, R., & Bongard, J. (2006). How the Body Shapes the Way We Think. MIT Press.
[10] How the Body Shapes the Way We Think: A New View of Intelligence. MIT Press.Shapiro, L. (2010). Embodied Cognition. Routledge.
[11] Varela, F. J., Thompson, E., & Rosch, E. (1991). The Embodied Mind: Cognitive Science and Human Experience. MIT Press.
[12]《2024年具身智能產(chǎn)業(yè)發(fā)展研究報(bào)告》,36氪研究院
[13]《具身智能發(fā)展報(bào)告(2024年)》,中國信息通信研究院
[14]《具身智能行業(yè)發(fā)展研究報(bào)告 系列報(bào)告之一:具身智能技術(shù)發(fā)展與行業(yè)應(yīng)用簡析》,甲子光年智庫
[15]《中國具身智能創(chuàng)投報(bào)告》,量子位智庫
[16] L. Londono, J. V. Hurtado, N. Hertz, P. Kellmeyer, S. Voeneky, and A. Valada, “Fairness and bias in robot learning,” Proceedings of the IEEE, 2024.
[17] J. Duan, S. Yu, H. L. Tan, H. Zhu, and C. Tan, “A survey of embodied ai: From simulators to research tasks,” IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 6, no. 2, pp. 230–244, 2022.
[18] Z. Xu, K. Wu, J. Wen, J. Li, N. Liu, Z. Che, and J. Tang, “A survey on robotics with foundation models: toward embodied ai,” arXiv preprint arXiv:2402.02385, 2024.
作者:畢蕾 中國移動咪咕公司北京研究院 系統(tǒng)開發(fā)總監(jiān)
審核:
單華琦 中國移動咪咕公司北京研究院 技術(shù)標(biāo)準(zhǔn)總監(jiān)
邢剛 中國移動咪咕公司北京研究院 技術(shù)項(xiàng)目總監(jiān)
徐嵩 中國移動咪咕公司北京研究院 資深系統(tǒng)架構(gòu)與分析專家
出品:科普中國×中國移動科學(xué)技術(shù)協(xié)會