世界電信日特別策劃(一)丨當(dāng)AI有了“身體”,將如何改變生活?

科普中國(guó)
原創(chuàng)
公眾科普,科學(xué)傳播。
收藏

830448.png

寫在前面:

當(dāng)今正處在科技迅猛發(fā)展的時(shí)代,人工智能技術(shù)的應(yīng)用與創(chuàng)新已經(jīng)滲透到各個(gè)領(lǐng)域,并為人類的生活與工作帶來(lái)了深遠(yuǎn)的影響。“具身智能”是人工智能與物理實(shí)體結(jié)合的產(chǎn)物,正逐漸成為推動(dòng)科技發(fā)展和產(chǎn)業(yè)變革的重要力量。5月17日是世界電信日,科普中國(guó)聯(lián)合中國(guó)移動(dòng)科學(xué)技術(shù)協(xié)會(huì)特別策劃“具身智能”系列內(nèi)容,為您詳細(xì)解讀。

(一)背景篇

具身智能(Embodied Artificial Intelligence, EAI)是人工智能領(lǐng)域的一個(gè)重要分支,其核心理念是能夠感知環(huán)境并采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)的自主實(shí)體(即為智能體),通過(guò)與物理環(huán)境的交互來(lái)實(shí)現(xiàn)智能行為。簡(jiǎn)單地說(shuō),是強(qiáng)調(diào)智能行為需要通過(guò)身體與環(huán)境的交互來(lái)實(shí)現(xiàn),而不僅僅依賴“大腦”的運(yùn)算。正如著名哲學(xué)家梅洛-龐蒂所說(shuō):“身體是我們擁有世界的方式。”類比剛出生的嬰兒認(rèn)識(shí)世界,不是僅僅通過(guò)大腦來(lái)思考,而是用眼睛去看、用耳朵去聽(tīng)、用手去觸摸,通過(guò)與外部環(huán)境的互動(dòng)來(lái)獲取信息,從而產(chǎn)生智能行為。聯(lián)想一下科幻電影里一些讓人屏息的瞬間,比如《銀翼殺手2049》中的“復(fù)制人K”,他的每一次呼吸、每一次觸摸都承載著對(duì)世界的感知;《機(jī)械姬》的實(shí)驗(yàn)室里,艾娃透過(guò)玻璃觀察人類時(shí),她的攝像頭不僅是眼睛,更是穿透人性迷霧的棱鏡,當(dāng)她的機(jī)械手指輕輕觸碰鏡面,震顫的不僅是傳感器,更是一種渴望被世界接納的生命信號(hào);而在《超能陸戰(zhàn)隊(duì)》的大白身上,它圓滾滾的身體不僅是醫(yī)療掃描儀的載體,更通過(guò)笨拙的擁抱傳遞治愈的力量;以及《終結(jié)者》中“T-800”從火焰中走出的震撼畫面......具身智能將科幻的浪漫注入金屬骨骼,讓這些逐漸可以成為現(xiàn)實(shí)。

圖片1.png

圖1 電影《機(jī)械姬》劇照(圖源:網(wǎng)絡(luò))

基本概念

根據(jù)中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)《具身智能》中的定義,具身智能是指一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),其通過(guò)智能體與環(huán)境的交互獲取信息、理解問(wèn)題、做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性[2]。人形機(jī)器人作為具身智能的典型代表,被視為實(shí)現(xiàn)具身智能的最佳載體之一。但是,并非所有具身智能系統(tǒng)都必須采用人形機(jī)器人的形態(tài)。具身智能的實(shí)現(xiàn)方式多種多樣,可以根據(jù)具體任務(wù)和環(huán)境需求選擇合適的智能實(shí)體形態(tài)。其核心思想在于:智能并非孤立于大腦或算法,而是身體形態(tài)、運(yùn)動(dòng)能力與環(huán)境動(dòng)態(tài)耦合的涌現(xiàn)性結(jié)果[3]。智能體通過(guò)與環(huán)境的持續(xù)交互來(lái)實(shí)現(xiàn)智能行為。智能體的身體、感知系統(tǒng)和環(huán)境之間的相互作用是其智能行為的基礎(chǔ)。

基本特征

身體與環(huán)境的耦合性。具身智能體與其環(huán)境之間存在緊密的耦合關(guān)系。智能體的行為受到其身體結(jié)構(gòu)和環(huán)境特性的共同影響,智能行為是身體與環(huán)境相互作用的結(jié)果。身體不僅是智能的載體,更是認(rèn)知的構(gòu)成部分,強(qiáng)調(diào)身體與環(huán)境的交織共生。例如傳統(tǒng)AI(如AlphaGo)依賴離線訓(xùn)練數(shù)據(jù),而具身智能(如波士頓動(dòng)力Atlas)通過(guò)身體運(yùn)動(dòng)實(shí)時(shí)生成數(shù)據(jù)。

感知、行動(dòng)與認(rèn)知的循環(huán)交互。具身智能強(qiáng)調(diào)感知、行動(dòng)和認(rèn)知之間的動(dòng)態(tài)循環(huán)關(guān)系。智能體通過(guò)感知環(huán)境來(lái)指導(dǎo)行動(dòng),行動(dòng)的結(jié)果又反饋給感知系統(tǒng),進(jìn)而影響認(rèn)知過(guò)程。這一循環(huán)交互使得智能體能夠適應(yīng)復(fù)雜多變的環(huán)境。例如自動(dòng)駕駛汽車需融合實(shí)時(shí)路況、天氣與行人意圖,而非僅依賴高精地圖。

自適應(yīng)性和生成性。具身智能體能夠通過(guò)自適應(yīng)性調(diào)整其行為,以應(yīng)對(duì)環(huán)境中的不確定性和變化。智能通過(guò)行動(dòng)主動(dòng)塑造環(huán)境,而非被動(dòng)反映世界。例如,機(jī)器人推開(kāi)障礙物開(kāi)辟路徑,或通過(guò)試錯(cuò)學(xué)習(xí)抓取策略。

具身智能的這些特征和理論基礎(chǔ)使其在機(jī)器人學(xué)、人工智能和認(rèn)知科學(xué)等領(lǐng)域中具有重要的應(yīng)用價(jià)值,尤其是在需要智能體在復(fù)雜、動(dòng)態(tài)環(huán)境中進(jìn)行自主決策和行為的場(chǎng)景中。

概念辨析

具身智能,強(qiáng)調(diào)智能體在真實(shí)環(huán)境中的感知、行動(dòng)和學(xué)習(xí)能力。這種以“身體”為媒介的智能形式更接近人類自然認(rèn)知過(guò)程,以交互為核心,強(qiáng)調(diào)智能體通過(guò)身體與環(huán)境動(dòng)態(tài)互動(dòng)實(shí)現(xiàn)智能行為,適用于動(dòng)態(tài)、開(kāi)放式任務(wù),如機(jī)器人導(dǎo)航、人機(jī)協(xié)作等。能夠更好地適應(yīng)動(dòng)態(tài)、不確定的復(fù)雜環(huán)境,在機(jī)器人、自動(dòng)駕駛、虛擬現(xiàn)實(shí)等領(lǐng)域具有廣泛應(yīng)用前景。

傳統(tǒng)人工智能(AI),多依賴于數(shù)據(jù)驅(qū)動(dòng)和符號(hào)推理,以計(jì)算為核心,強(qiáng)調(diào)算法優(yōu)化和數(shù)據(jù)訓(xùn)練,與環(huán)境的交互有限,多用于靜態(tài)任務(wù)如圖像識(shí)別、自然語(yǔ)言處理等。

智能體(Agent),和具身智能相比范圍更廣,是指能夠感知環(huán)境并通過(guò)行動(dòng)實(shí)現(xiàn)目標(biāo)的實(shí)體,涵蓋虛擬、物理形態(tài)。具身智能是智能體在物理世界中的具體化形式。而以ChatGPT為代表的“軟件智能體”(或稱“離身智能體”)使用大模型通過(guò)網(wǎng)頁(yè)端、手機(jī)APP與用戶進(jìn)行交互,能夠接受語(yǔ)音、文字、圖片、視頻的多種模態(tài)的用戶指令,通過(guò)計(jì)算處理數(shù)據(jù)執(zhí)行任務(wù),當(dāng)前存在“智能是否必須具身”的爭(zhēng)議。

通用人工智能(AGI),以全域智能為核心目標(biāo),追求像人類一樣跨領(lǐng)域自主學(xué)習(xí)、推理和適應(yīng),被視為人工智能發(fā)展的終極形態(tài)?。具身智能?是推動(dòng)AGI從數(shù)字世界走向物理現(xiàn)實(shí)的關(guān)鍵技術(shù)路徑?。

具身機(jī)器人(Embodied Robot),與具身智能緊密關(guān)聯(lián)但內(nèi)涵不同的概念。具身智能是智能體通過(guò)物理身體與環(huán)境動(dòng)態(tài)交互實(shí)現(xiàn)認(rèn)知和行動(dòng)的能力,而具身機(jī)器人則是具身智能的具體載體和表現(xiàn)形式。

發(fā)展脈絡(luò)

具身智能的發(fā)展歷程跨越了從哲學(xué)思辨到技術(shù)落地的多個(gè)階段,其核心理念是通過(guò)智能體與物理環(huán)境的動(dòng)態(tài)交互實(shí)現(xiàn)認(rèn)知與行動(dòng)能力。以下是結(jié)合現(xiàn)有研究和技術(shù)報(bào)告總結(jié)的具身智能發(fā)展脈絡(luò):

圖片2.png

圖2 具身智能發(fā)展脈絡(luò)

首先是早期萌芽階段,主要是理論與實(shí)踐探索。早在1945年法國(guó)哲學(xué)家梅洛-龐蒂在《知覺(jué)現(xiàn)象學(xué)》中提出“具身性”(Embodiment)概念[3],該書與薩特的《存在與虛無(wú)》并稱為法國(guó)現(xiàn)象學(xué)運(yùn)動(dòng)的奠基性著作?,強(qiáng)調(diào)身體是認(rèn)知與環(huán)境的媒介,其思想對(duì)心理學(xué)、認(rèn)知科學(xué)及人工智能(如“具身智能”研究)產(chǎn)生了深遠(yuǎn)影響?;此后在1950年,圖靈在論文中首次提出“具身智能”設(shè)想,認(rèn)為智能需通過(guò)物理實(shí)體與環(huán)境的互動(dòng)實(shí)現(xiàn)。此后在1960年代后,機(jī)器人開(kāi)始應(yīng)用于汽車制造業(yè),但功能局限于預(yù)設(shè)程序的重復(fù)動(dòng)作,缺乏自主性。到了1980年代,羅德尼·布魯克斯在MIT人工智能實(shí)驗(yàn)室提出“包容架構(gòu)”(Subsumption Architecture),主張主張以“感知-行動(dòng)”模式模擬生物對(duì)環(huán)境的直接反應(yīng),通過(guò)簡(jiǎn)單行為模塊組合實(shí)現(xiàn)智能,其團(tuán)隊(duì)開(kāi)發(fā)了成吉思”(Genghis)六足機(jī)器人是包容架構(gòu)的典型代表,其分布式控制單元使機(jī)器人無(wú)需全局地圖即可適應(yīng)復(fù)雜地形?。20世紀(jì)90年代后進(jìn)入技術(shù)積累階段,跨學(xué)科融合與算法突破。

一是認(rèn)知科學(xué)與機(jī)器人學(xué)結(jié)合,具身認(rèn)知理論(Embodied Cognition)逐漸成熟,強(qiáng)調(diào)身體形態(tài)與環(huán)境交互對(duì)智能的塑造作用。仿生機(jī)器人(如波士頓動(dòng)力早期四足機(jī)器人)開(kāi)始模擬生物運(yùn)動(dòng)機(jī)制,推動(dòng)形態(tài)計(jì)算(Morphological Computation)的研究。

二是算法與技術(shù)演進(jìn),2000年代,深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)(Reinforcement Learning)的興起,使機(jī)器人能夠通過(guò)試錯(cuò)優(yōu)化行為策略(如OpenAI的Dactyl機(jī)械手);2010年代,多模態(tài)感知技術(shù)(視覺(jué)、觸覺(jué)融合)和邊緣計(jì)算的應(yīng)用,提升實(shí)時(shí)環(huán)境交互能力。

2022年后隨著大模型的出圈,進(jìn)入技術(shù)突破階段。大模型與具身智能的融合,生成式AI與機(jī)器人技術(shù)結(jié)合,賦予智能體語(yǔ)言理解和任務(wù)泛化能力。例如,谷歌RT-2模型通過(guò)自然語(yǔ)言指令控制機(jī)器人完成復(fù)雜操作。2024年,OpenAI與Figure公司合作推出Figure系列人形機(jī)器人,實(shí)現(xiàn)高精度感知與動(dòng)態(tài)任務(wù)執(zhí)行。隨著技術(shù)與算法革新,在大模型和政策的推動(dòng)下邁入產(chǎn)業(yè)化新階段。其未來(lái)將圍繞“感知-決策-行動(dòng)”閉環(huán)持續(xù)突破,成為連接虛擬與物理世界的智能橋梁,深刻重塑工業(yè)、醫(yī)療、家庭等領(lǐng)域的運(yùn)作模式。

【參考資料】

[1] 莫里斯·梅洛-龐蒂. 知覺(jué)現(xiàn)象學(xué). 姜志輝, 譯. 北京: 商務(wù)印書館, 2001[2] 中國(guó)計(jì)算機(jī)學(xué)會(huì),《具身智能》,2023[3] Merleau-Ponty, M. (1945). Phénoménologie de la perception. Gallimard.Pfeifer, R., & Bongard, J. (2006). [4] Liu, Yang, et al. “Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI.” arXiv preprint arXiv:2407.06886, 2024.[5]《科技熱詞“具身智能”到底是什么?》,中科院物理所[6]《具身智能時(shí)代來(lái)了?》,中國(guó)報(bào)道[7] Brooks, R. A. (1991). Intelligence Without Representation. Artificial Intelligence, 47(1-3), 139–159.

[8] Lakoff, G., & Johnson, M. (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Thought. Basic Books.

[9] Pfeifer, R., & Bongard, J. (2006). How the Body Shapes the Way We Think. MIT Press.

[10] How the Body Shapes the Way We Think: A New View of Intelligence. MIT Press.Shapiro, L. (2010). Embodied Cognition. Routledge.

[11] Varela, F. J., Thompson, E., & Rosch, E. (1991). The Embodied Mind: Cognitive Science and Human Experience. MIT Press.

[12]《2024年具身智能產(chǎn)業(yè)發(fā)展研究報(bào)告》,36氪研究院

[13]《具身智能發(fā)展報(bào)告(2024年)》,中國(guó)信息通信研究院

[14]《具身智能行業(yè)發(fā)展研究報(bào)告 系列報(bào)告之一:具身智能技術(shù)發(fā)展與行業(yè)應(yīng)用簡(jiǎn)析》,甲子光年智庫(kù)

[15]《中國(guó)具身智能創(chuàng)投報(bào)告》,量子位智庫(kù)

[16] L. Londono, J. V. Hurtado, N. Hertz, P. Kellmeyer, S. Voeneky, and A. Valada, “Fairness and bias in robot learning,” Proceedings of the IEEE, 2024.

[17] J. Duan, S. Yu, H. L. Tan, H. Zhu, and C. Tan, “A survey of embodied ai: From simulators to research tasks,” IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 6, no. 2, pp. 230–244, 2022.

[18] Z. Xu, K. Wu, J. Wen, J. Li, N. Liu, Z. Che, and J. Tang, “A survey on robotics with foundation models: toward embodied ai,” arXiv preprint arXiv:2402.02385, 2024.

作者:畢蕾 中國(guó)移動(dòng)咪咕公司北京研究院 系統(tǒng)開(kāi)發(fā)總監(jiān)

審核:

單華琦 中國(guó)移動(dòng)咪咕公司北京研究院 技術(shù)標(biāo)準(zhǔn)總監(jiān)

邢剛 中國(guó)移動(dòng)咪咕公司北京研究院 技術(shù)項(xiàng)目總監(jiān)

徐嵩 中國(guó)移動(dòng)咪咕公司北京研究院 資深系統(tǒng)架構(gòu)與分析專家

出品:科普中國(guó)×中國(guó)移動(dòng)科學(xué)技術(shù)協(xié)會(huì)

內(nèi)容資源由項(xiàng)目單位提供

評(píng)論
科普科普知識(shí)的搖籃!
大學(xué)士級(jí)
具身智能,它是人工智能的璀璨分支,以物理實(shí)體觸碰世界,借與環(huán)境的動(dòng)態(tài)耦合,讓智能在感知、行動(dòng)與認(rèn)知的循環(huán)中流淌。從思辨走向落地,它正破繭而出,重塑工業(yè)、醫(yī)療與生活的美好模樣。
2025-05-17
科普Ⅱ小白
庶吉士級(jí)
具身智能的發(fā)展經(jīng)歷了從理論探索到技術(shù)落地的多個(gè)階段,在機(jī)器人導(dǎo)航、人機(jī)協(xié)作等動(dòng)態(tài)、開(kāi)放式任務(wù)中具有廣泛應(yīng)用前景,被視為推動(dòng)通用人工智能發(fā)展的關(guān)鍵技術(shù)路徑。
2025-05-17
科普Ⅱ小白
庶吉士級(jí)
與傳統(tǒng)AI相比,具身智能更適用于動(dòng)態(tài)、復(fù)雜環(huán)境中的自主決策和行為。發(fā)展歷程從理論探索到技術(shù)突破,經(jīng)歷了多個(gè)階段,目前正邁向產(chǎn)業(yè)化新階段,有望深刻重塑工業(yè)、醫(yī)療、家庭等領(lǐng)域。
2025-05-17