為了避開捕食者,剛出生的長(zhǎng)頸鹿或者馬駒等動(dòng)物必須學(xué)會(huì)用腿盡可能快地走路。
然而,學(xué)會(huì)精確協(xié)調(diào)腿部肌肉和肌腱,還是要花費(fèi)一些時(shí)間。
最初,小動(dòng)物嚴(yán)重依賴于天生的脊髓反射,運(yùn)動(dòng)控制反射幫助它們?cè)诘谝淮螄L試行走時(shí)避免摔倒和受傷。
之后,它們必須學(xué)習(xí)更先進(jìn)、更精確的肌肉控制,直到神經(jīng)系統(tǒng)最終適應(yīng)腿部肌肉和肌腱。
最后,它們就像成年動(dòng)物一樣,再也不會(huì)有不受控制的跌跌撞撞了。
這個(gè)過程可能非常短(比如牛羊剛出生就會(huì)走路),也可能是幾天到幾周(比如貓咪和狗子需要一些時(shí)間學(xué)習(xí)),也可能長(zhǎng)達(dá) 1 年(比如人類幼兒學(xué)走路就很慢)。
(來(lái)源:Pixabay)
那么,問題來(lái)了,動(dòng)物是如何學(xué)會(huì)行走并從磕磕絆絆中學(xué)習(xí)的?
為此,馬克斯·普朗克智能系統(tǒng)研究所(MPI-IS)的研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)研究,他們制造了一個(gè)四條腿、狗一樣大小的機(jī)器人,希望借此來(lái)回到這一問題。
圖|在跑步機(jī)上行走(素材來(lái)源:Morti)
相關(guān)研究論文以“Learning plastic matching of robot dynamics in closed-loop central pattern generators”為題,已發(fā)表在科學(xué)期刊 Nature Machine Intelligence 上。
“作為工程師和機(jī)器人專家,我們通過制造一個(gè)機(jī)器人來(lái)尋找答案,它具有像動(dòng)物一樣的反射能力,并從錯(cuò)誤中學(xué)習(xí)?!?論文第一作者、通訊作者 Felix Ruppert 說。
“如果動(dòng)物跌倒了,這是一個(gè)錯(cuò)誤嗎?如果只發(fā)生一次,就不是錯(cuò)誤。但是,如果它經(jīng)常跌倒,就可以為我們提供一個(gè)衡量機(jī)器人行走能力的標(biāo)準(zhǔn)。”
用算法優(yōu)化“虛擬脊髓”
據(jù)論文描述,該機(jī)器狗名為 Morti,只用了一個(gè)小時(shí)學(xué)習(xí)走路,就很好地掌握了復(fù)雜的腿部力學(xué)。
圖|機(jī)器狗 Morti(來(lái)源:MPI-IS)
在這一過程中,研究團(tuán)隊(duì)利用一種貝葉斯優(yōu)化算法來(lái)指導(dǎo)機(jī)器狗學(xué)習(xí):測(cè)量到的足部傳感器信息與虛擬脊髓模型的目標(biāo)數(shù)據(jù)相匹配,脊髓模型作為程序運(yùn)行在機(jī)器人的“大腦”中。
機(jī)器人通過不斷比較發(fā)送和期望的傳感器信息、運(yùn)行反射回路和調(diào)整其運(yùn)動(dòng)控制模式來(lái)學(xué)習(xí)行走。
該學(xué)習(xí)算法類似于中樞模式發(fā)生器(CPG)的控制參數(shù)。
在人類和動(dòng)物中,這些 CPG 是脊髓中的神經(jīng)元網(wǎng)絡(luò),它們產(chǎn)生周期性的肌肉收縮,而不需要來(lái)自大腦的輸入。CPG 網(wǎng)絡(luò)幫助產(chǎn)生有節(jié)奏的任務(wù),比如走路、眨眼或消化。
此外,反射是由連接腿部傳感器和脊髓的硬編碼神經(jīng)通路觸發(fā)的無(wú)意識(shí)的運(yùn)動(dòng)控制行為。
只要小動(dòng)物在一個(gè)完美的平面上行走,CPG 就足以控制來(lái)自脊髓的運(yùn)動(dòng)信號(hào)。
然而,僅僅是與地面的一次小碰撞,就能改變它們的行走方式。
這時(shí),它們自身的(機(jī)體)反射開始發(fā)揮作用,幫助調(diào)整運(yùn)動(dòng)模式,防止摔倒。
這些運(yùn)動(dòng)信號(hào)的瞬間變化是可逆的,或者說是“有彈性的”,運(yùn)動(dòng)模式在受到調(diào)控后會(huì)恢復(fù)到原來(lái)的形態(tài)。
但是,如果它們?cè)诙啻窝h(huán)的運(yùn)動(dòng)后仍然會(huì)磕磕絆絆——盡管是主動(dòng)的反射——那么這些運(yùn)動(dòng)模式必須重新學(xué)習(xí),并使其“不可逆轉(zhuǎn)”。
在動(dòng)物剛出生的階段,它們的 CPG 還沒有調(diào)整好,它們?cè)谄教够虿黄降牡匦紊隙紩?huì)表現(xiàn)得跌跌撞撞。但是,這些動(dòng)物很快就能學(xué)會(huì) CPG 和反射是如何控制腿部肌肉和肌腱的。
(來(lái)源:MPI-IS)
拉布拉多犬大小的機(jī)器狗“Morti”也是如此。
更重要的是,Morti 優(yōu)化運(yùn)動(dòng)模式的速度比小動(dòng)物還快,只需要大約一小時(shí)。
Morti 的 CPG 是在一臺(tái)控制機(jī)器人腿部運(yùn)動(dòng)的小型計(jì)算機(jī)上模擬的。
這個(gè)虛擬脊髓被放置在 Morti 的背部,也就是頭部所在的位置。
在機(jī)器人平穩(wěn)行走的過程中,Morti 足部的傳感器數(shù)據(jù)會(huì)不斷與它自身 CPG 預(yù)測(cè)的預(yù)期觸地進(jìn)行比較。
如果機(jī)器人摔倒了,學(xué)習(xí)算法會(huì)改變腿前后擺動(dòng)的距離、速度以及腿在地面上的長(zhǎng)度。
調(diào)整后的運(yùn)動(dòng)也會(huì)告訴 Morti 之后如何更好地利用腿部力學(xué)。
在學(xué)習(xí)過程中,Morti 的 CPG 會(huì)發(fā)送適應(yīng)的運(yùn)動(dòng)信號(hào)來(lái)優(yōu)化自身行走,進(jìn)而減少磕磕絆絆。
在這個(gè)框架中,Morti 的虛擬脊髓并不了解自身的腿部設(shè)計(jì)、動(dòng)力來(lái)源和身體結(jié)構(gòu)。由于對(duì)自身物理結(jié)構(gòu)一無(wú)所知,Morti 缺少一個(gè)機(jī)器人“模型”。
對(duì)此,Ruppert 解釋說:“Morti 實(shí)際上并不知道它的腿部解剖結(jié)構(gòu)以及它們是如何工作的?!?/p>
“CPG 類似于天然提供的內(nèi)置自動(dòng)行走智能,我們已經(jīng)將其轉(zhuǎn)移到機(jī)器人身上。計(jì)算機(jī)產(chǎn)生信號(hào)控制腿部的馬達(dá),機(jī)器人就會(huì)行走和跌倒。數(shù)據(jù)從傳感器傳到虛擬脊髓,與 CPG 數(shù)據(jù)進(jìn)行對(duì)比。如果傳感器數(shù)據(jù)與預(yù)期數(shù)據(jù)不匹配,學(xué)習(xí)算法就會(huì)改變行走行為,直到機(jī)器人走得很好,不會(huì)絆倒。學(xué)習(xí)過程的核心部分是改變 CPG 的輸出,同時(shí)保持反應(yīng)的活躍,并監(jiān)測(cè)機(jī)器人的跌跌撞撞。”
節(jié)能的機(jī)器狗控制
Morti 的小型計(jì)算機(jī)在行走過程中只消耗了 5 瓦的能量。
但是,大多數(shù)現(xiàn)有的工業(yè)四足機(jī)器人對(duì)電力的需求要大得多。它們的控制器使用機(jī)器人的模型,根據(jù)機(jī)器人的精確質(zhì)量和身體幾何形狀進(jìn)行編碼,通常消耗幾十到幾百瓦。
兩種類型的機(jī)器人都是動(dòng)態(tài)高效運(yùn)行的,但 Morti 的能量消耗要低得多,而且還提供了對(duì)動(dòng)物解剖學(xué)的重要見解。
“我們不能輕易地研究活體動(dòng)物的脊髓。但我們可以在機(jī)器人中建立一個(gè)模型,”論文作者之一 Alexander Badri-Spr?witz 說。
“我們知道這些 CPG 存在于許多動(dòng)物身上。我們知道反射是內(nèi)在的;但如何將兩者結(jié)合起來(lái),讓動(dòng)物學(xué)習(xí)反射和 CPG 運(yùn)動(dòng)?這是機(jī)器人與生物學(xué)交叉領(lǐng)域的基礎(chǔ)性研究。針對(duì)生物學(xué)無(wú)法回答的問題,我們的機(jī)器人模型給出了答案?!?/p>
在未來(lái)的工作中,研究團(tuán)隊(duì)將繼續(xù)擴(kuò)展 CPG,在產(chǎn)生臀部軌跡時(shí)將機(jī)體俯仰動(dòng)作考慮其中。通過慣性測(cè)量裝置,機(jī)體俯仰可以反饋到 CPG 中。
參考資料:
https://www.nature.com/articles/s42256-022-00505-4