版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

即使人類犯錯(cuò),AI Agent也能快速學(xué)習(xí)!

學(xué)術(shù)頭條
原創(chuàng)
一起見證人類探索征途上的每一個(gè)重大突破。
收藏

為了教會 AI Agent 新技能,比如打開廚房櫥柜,研究者通常采用強(qiáng)化學(xué)習(xí)方法。這是一種試錯(cuò)過程,AI Agent 通過采取正確的行動(dòng)接近目標(biāo)而獲得獎(jiǎng)勵(lì)。

在大多數(shù)情況下,人類專家需要精心設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),從而鼓勵(lì) AI Agent 進(jìn)行更多探索。隨著 AI Agent 的探索和嘗試,人類專家需要不斷更新這個(gè)獎(jiǎng)勵(lì)函數(shù)。這一過程既耗時(shí)又低效,特別是在任務(wù)復(fù)雜、步驟繁多時(shí),擴(kuò)展起來更是十分困難

日前,麻省理工學(xué)院(MIT)、哈佛大學(xué)和華盛頓大學(xué)的研究團(tuán)隊(duì)開發(fā)了一種新型強(qiáng)化學(xué)習(xí)方法,這種方法不依賴專家設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù),而是利用來自許多非專家用戶的眾包反饋(crowdsourced feedback),來指導(dǎo) AI Agent 達(dá)成學(xué)習(xí)目標(biāo)。

圖片

盡管用戶眾包數(shù)據(jù)常常存在錯(cuò)誤,這種新方法依然能夠讓 AI Agent 更快速地學(xué)習(xí),這與其他嘗試使用非專家反饋的方法有所不同,而這些噪聲數(shù)據(jù)通常會讓其他方法失效。

此外,這種新方法支持異步收集反饋,使得全球各地的非專家用戶都可以參與到教導(dǎo) AI Agent 的過程中。

MIT 電氣工程與計(jì)算機(jī)科學(xué)系助理教授、Improbable AI Lab 主任 Pulkit Agrawal 表示:“在設(shè)計(jì) AI Agent 時(shí),最耗時(shí)且具挑戰(zhàn)性的部分之一就是設(shè)定獎(jiǎng)勵(lì)函數(shù)。當(dāng)前,獎(jiǎng)勵(lì)函數(shù)主要由專家設(shè)計(jì),如果我們想讓機(jī)器人學(xué)習(xí)多種任務(wù),這種方式是難以擴(kuò)展的。我們的研究提出了一種方案,通過眾包來設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),并讓非專家參與提供有效反饋,從而擴(kuò)大機(jī)器人的學(xué)習(xí)范圍?!?/p>

未來,這種方法可以幫助機(jī)器人在人們家中快速學(xué)習(xí)特定任務(wù),而無需人們親自示范每項(xiàng)任務(wù)。機(jī)器人可以獨(dú)立探索,由眾包的非專家反饋引導(dǎo)其探索方向。

“在我們的方法中,獎(jiǎng)勵(lì)函數(shù)不是直接告訴 AI Agent怎樣完成任務(wù),而是指導(dǎo)它應(yīng)該探索的方向。因此,即便人類監(jiān)督存在一定的不準(zhǔn)確性和噪聲,AI Agent仍然能夠進(jìn)行有效探索,從而更好地學(xué)習(xí),”Improbable AI Lab 研究助理、論文主要作者之一 Marcel Torne 解釋說。

即使接收的答案有誤,也能完成任務(wù)

一種收集強(qiáng)化學(xué)習(xí)用戶反饋的方法是向用戶展示 AI Agent 達(dá)到的兩種狀態(tài)的照片,并詢問哪種狀態(tài)更接近目標(biāo)。例如,設(shè)想一個(gè)機(jī)器人的目標(biāo)是打開廚房櫥柜,其中一張照片可能顯示它成功打開了櫥柜,另一張則可能顯示它打開了微波爐。用戶需要選擇表現(xiàn)更佳狀態(tài)的照片。

有些早期方法嘗試使用這種眾包形式的二元反饋,來優(yōu)化 AI Agent 用以學(xué)習(xí)任務(wù)的獎(jiǎng)勵(lì)函數(shù)。但問題在于,非專業(yè)人士容易出錯(cuò),這會導(dǎo)致獎(jiǎng)勵(lì)函數(shù)變得極為混亂,以至于 AI Agent 可能無法達(dá)成目標(biāo)。

Torne 指出:“實(shí)際上,AI Agent 會過分認(rèn)真地對待獎(jiǎng)勵(lì)函數(shù),努力完美符合這一函數(shù)。因此,我們不直接優(yōu)化獎(jiǎng)勵(lì)函數(shù),而是用它來指導(dǎo)機(jī)器人應(yīng)探索的區(qū)域?!?/p>

研究團(tuán)隊(duì)將這一過程分成兩個(gè)獨(dú)立部分,每部分由各自的算法驅(qū)動(dòng)。他們將這種新型增強(qiáng)學(xué)習(xí)方法命名為人類引導(dǎo)探索(Human Guided Exploration,HuGE)

圖片

一方面,目標(biāo)選擇算法會持續(xù)接收眾包的人類反饋并進(jìn)行更新。這些反饋并非用作獎(jiǎng)勵(lì)函數(shù),而是用于指引 AI Agent 的探索方向。簡而言之,非專業(yè)用戶提供的指引就像一路撒下的“面包屑”,逐漸引導(dǎo) AI Agent 接近目標(biāo)。

另一方面,AI Agent 自己也會進(jìn)行探索,這一過程是自我監(jiān)督的,由目標(biāo)選擇器進(jìn)行指導(dǎo)。它會收集自己嘗試的動(dòng)作的圖像或視頻,隨后發(fā)送給人類,用于更新目標(biāo)選擇器。

這樣做有助于縮小 AI Agent 需要探索的范圍,引導(dǎo)它前往更接近目標(biāo)的有希望的區(qū)域。但如果暫時(shí)沒有反饋,或反饋遲遲未到,AI Agent 仍會繼續(xù)自行學(xué)習(xí),盡管速度較慢。這種方式允許反饋的收集不那么頻繁,也可以異步進(jìn)行。

Torne 補(bǔ)充道:“探索過程可以自主、持續(xù)進(jìn)行,因?yàn)樗鼤粩嗵剿鞑W(xué)習(xí)新知識。當(dāng)接收到更準(zhǔn)確的信號時(shí),它會以更明確的方式進(jìn)行探索。它們可以按照各自的節(jié)奏運(yùn)轉(zhuǎn)。

由于反饋只是輕微地引導(dǎo) AI Agent 的行為,即使用戶提供的答案有誤,AI Agent 最終也能學(xué)會如何完成任務(wù)。

更快的學(xué)習(xí)

研究團(tuán)隊(duì)在一系列模擬和真實(shí)環(huán)境的任務(wù)中測試了這種方法。

例如,在模擬環(huán)境中,他們利用 HuGE 高效學(xué)習(xí)一系列復(fù)雜動(dòng)作,比如按特定順序堆積積木或在迷宮中導(dǎo)航。

圖片

在真實(shí)環(huán)境的測試中,他們用 HuGE 訓(xùn)練機(jī)器人手臂來繪制字母“U”和拾取放置物體。這些測試匯集了來自三大洲 13 個(gè)國家的 109 名非專業(yè)用戶的數(shù)據(jù)。

圖片

無論是在真實(shí)世界還是模擬實(shí)驗(yàn)中,HuGE 都使得 AI Agent學(xué)習(xí)完成任務(wù)的速度比其他方法更快。

圖片

此外,與制作和標(biāo)注的合成數(shù)據(jù)相比,非專家眾包的數(shù)據(jù)表現(xiàn)更佳。對非專家用戶而言,標(biāo)注 30 張圖片或視頻不到兩分鐘就能完成?!斑@展示了這種方法在擴(kuò)展應(yīng)用方面的巨大潛力,”Torne 補(bǔ)充說。

在一項(xiàng)相關(guān)的研究中,研究團(tuán)隊(duì)在最近的機(jī)器人學(xué)習(xí)會議上展示了他們?nèi)绾胃倪M(jìn) HuGE,使得 AI Agent 不僅能學(xué)習(xí)完成任務(wù),還能自主地重置環(huán)境繼續(xù)學(xué)習(xí)。例如,如果 AI Agent 學(xué)會了打開櫥柜,這種方法還能指導(dǎo)它關(guān)閉櫥柜。

“現(xiàn)在我們能讓它在沒有人工干預(yù)的情況下完全自主學(xué)習(xí),”他說。

研究團(tuán)隊(duì)還強(qiáng)調(diào),在這種以及其他學(xué)習(xí)方法中,確保 AI Agent與人類價(jià)值觀保持一致是至關(guān)重要的。

未來,研究團(tuán)隊(duì)計(jì)劃進(jìn)一步完善 HuGE,讓 AI Agent 能夠通過自然語言和與機(jī)器人的物理交互等更多方式學(xué)習(xí)。他們還對將這種方法應(yīng)用于同時(shí)訓(xùn)練多個(gè) AI Agent 表示出了興趣。

參考鏈接:

https://news.mit.edu/2023/method-uses-crowdsourced-feedback-help-train-robots-1127

https://arxiv.org/pdf/2307.11049.pdf

https://human-guided-exploration.github.io/HuGE/

評論
科普科普知識的搖籃!
大學(xué)士級
在科學(xué)技術(shù)的發(fā)展下,無論是在真實(shí)世界還是模擬實(shí)驗(yàn)中,HuGE 都使得 AI Agent學(xué)習(xí)完成任務(wù)的速度比其他方法更快。
2023-11-30
666666666馬
貢生級
AI科技運(yùn)用新發(fā)展為人們帶來更便捷的體驗(yàn),但是科技的未知性也有可能帶來一定的弊端。合理謹(jǐn)慎發(fā)展才能更好服務(wù)人類
2023-11-30
天津.諸葛
少師級
基于強(qiáng)大的的學(xué)習(xí)能力,AⅠ正在加速升級換代,甚至可在沒有人工干預(yù)的情況下完全自主學(xué)習(xí)。但應(yīng)充分考慮的是,應(yīng)確保AI與人類的價(jià)值觀一致,以免對人類造成威脅。
2023-11-30