為了教會 AI Agent 新技能,比如打開廚房櫥柜,研究者通常采用強(qiáng)化學(xué)習(xí)方法。這是一種試錯(cuò)過程,AI Agent 通過采取正確的行動(dòng)接近目標(biāo)而獲得獎(jiǎng)勵(lì)。
在大多數(shù)情況下,人類專家需要精心設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),從而鼓勵(lì) AI Agent 進(jìn)行更多探索。隨著 AI Agent 的探索和嘗試,人類專家需要不斷更新這個(gè)獎(jiǎng)勵(lì)函數(shù)。這一過程既耗時(shí)又低效,特別是在任務(wù)復(fù)雜、步驟繁多時(shí),擴(kuò)展起來更是十分困難。
日前,麻省理工學(xué)院(MIT)、哈佛大學(xué)和華盛頓大學(xué)的研究團(tuán)隊(duì)開發(fā)了一種新型強(qiáng)化學(xué)習(xí)方法,這種方法不依賴專家設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù),而是利用來自許多非專家用戶的眾包反饋(crowdsourced feedback),來指導(dǎo) AI Agent 達(dá)成學(xué)習(xí)目標(biāo)。
盡管用戶眾包數(shù)據(jù)常常存在錯(cuò)誤,這種新方法依然能夠讓 AI Agent 更快速地學(xué)習(xí),這與其他嘗試使用非專家反饋的方法有所不同,而這些噪聲數(shù)據(jù)通常會讓其他方法失效。
此外,這種新方法支持異步收集反饋,使得全球各地的非專家用戶都可以參與到教導(dǎo) AI Agent 的過程中。
MIT 電氣工程與計(jì)算機(jī)科學(xué)系助理教授、Improbable AI Lab 主任 Pulkit Agrawal 表示:“在設(shè)計(jì) AI Agent 時(shí),最耗時(shí)且具挑戰(zhàn)性的部分之一就是設(shè)定獎(jiǎng)勵(lì)函數(shù)。當(dāng)前,獎(jiǎng)勵(lì)函數(shù)主要由專家設(shè)計(jì),如果我們想讓機(jī)器人學(xué)習(xí)多種任務(wù),這種方式是難以擴(kuò)展的。我們的研究提出了一種方案,通過眾包來設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),并讓非專家參與提供有效反饋,從而擴(kuò)大機(jī)器人的學(xué)習(xí)范圍?!?/p>
未來,這種方法可以幫助機(jī)器人在人們家中快速學(xué)習(xí)特定任務(wù),而無需人們親自示范每項(xiàng)任務(wù)。機(jī)器人可以獨(dú)立探索,由眾包的非專家反饋引導(dǎo)其探索方向。
“在我們的方法中,獎(jiǎng)勵(lì)函數(shù)不是直接告訴 AI Agent怎樣完成任務(wù),而是指導(dǎo)它應(yīng)該探索的方向。因此,即便人類監(jiān)督存在一定的不準(zhǔn)確性和噪聲,AI Agent仍然能夠進(jìn)行有效探索,從而更好地學(xué)習(xí),”Improbable AI Lab 研究助理、論文主要作者之一 Marcel Torne 解釋說。
即使接收的答案有誤,也能完成任務(wù)
一種收集強(qiáng)化學(xué)習(xí)用戶反饋的方法是向用戶展示 AI Agent 達(dá)到的兩種狀態(tài)的照片,并詢問哪種狀態(tài)更接近目標(biāo)。例如,設(shè)想一個(gè)機(jī)器人的目標(biāo)是打開廚房櫥柜,其中一張照片可能顯示它成功打開了櫥柜,另一張則可能顯示它打開了微波爐。用戶需要選擇表現(xiàn)更佳狀態(tài)的照片。
有些早期方法嘗試使用這種眾包形式的二元反饋,來優(yōu)化 AI Agent 用以學(xué)習(xí)任務(wù)的獎(jiǎng)勵(lì)函數(shù)。但問題在于,非專業(yè)人士容易出錯(cuò),這會導(dǎo)致獎(jiǎng)勵(lì)函數(shù)變得極為混亂,以至于 AI Agent 可能無法達(dá)成目標(biāo)。
Torne 指出:“實(shí)際上,AI Agent 會過分認(rèn)真地對待獎(jiǎng)勵(lì)函數(shù),努力完美符合這一函數(shù)。因此,我們不直接優(yōu)化獎(jiǎng)勵(lì)函數(shù),而是用它來指導(dǎo)機(jī)器人應(yīng)探索的區(qū)域?!?/p>
研究團(tuán)隊(duì)將這一過程分成兩個(gè)獨(dú)立部分,每部分由各自的算法驅(qū)動(dòng)。他們將這種新型增強(qiáng)學(xué)習(xí)方法命名為人類引導(dǎo)探索(Human Guided Exploration,HuGE)。
一方面,目標(biāo)選擇算法會持續(xù)接收眾包的人類反饋并進(jìn)行更新。這些反饋并非用作獎(jiǎng)勵(lì)函數(shù),而是用于指引 AI Agent 的探索方向。簡而言之,非專業(yè)用戶提供的指引就像一路撒下的“面包屑”,逐漸引導(dǎo) AI Agent 接近目標(biāo)。
另一方面,AI Agent 自己也會進(jìn)行探索,這一過程是自我監(jiān)督的,由目標(biāo)選擇器進(jìn)行指導(dǎo)。它會收集自己嘗試的動(dòng)作的圖像或視頻,隨后發(fā)送給人類,用于更新目標(biāo)選擇器。
這樣做有助于縮小 AI Agent 需要探索的范圍,引導(dǎo)它前往更接近目標(biāo)的有希望的區(qū)域。但如果暫時(shí)沒有反饋,或反饋遲遲未到,AI Agent 仍會繼續(xù)自行學(xué)習(xí),盡管速度較慢。這種方式允許反饋的收集不那么頻繁,也可以異步進(jìn)行。
Torne 補(bǔ)充道:“探索過程可以自主、持續(xù)進(jìn)行,因?yàn)樗鼤粩嗵剿鞑W(xué)習(xí)新知識。當(dāng)接收到更準(zhǔn)確的信號時(shí),它會以更明確的方式進(jìn)行探索。它們可以按照各自的節(jié)奏運(yùn)轉(zhuǎn)。”
由于反饋只是輕微地引導(dǎo) AI Agent 的行為,即使用戶提供的答案有誤,AI Agent 最終也能學(xué)會如何完成任務(wù)。
更快的學(xué)習(xí)
研究團(tuán)隊(duì)在一系列模擬和真實(shí)環(huán)境的任務(wù)中測試了這種方法。
例如,在模擬環(huán)境中,他們利用 HuGE 高效學(xué)習(xí)一系列復(fù)雜動(dòng)作,比如按特定順序堆積積木或在迷宮中導(dǎo)航。
在真實(shí)環(huán)境的測試中,他們用 HuGE 訓(xùn)練機(jī)器人手臂來繪制字母“U”和拾取放置物體。這些測試匯集了來自三大洲 13 個(gè)國家的 109 名非專業(yè)用戶的數(shù)據(jù)。
無論是在真實(shí)世界還是模擬實(shí)驗(yàn)中,HuGE 都使得 AI Agent學(xué)習(xí)完成任務(wù)的速度比其他方法更快。
此外,與制作和標(biāo)注的合成數(shù)據(jù)相比,非專家眾包的數(shù)據(jù)表現(xiàn)更佳。對非專家用戶而言,標(biāo)注 30 張圖片或視頻不到兩分鐘就能完成?!斑@展示了這種方法在擴(kuò)展應(yīng)用方面的巨大潛力,”Torne 補(bǔ)充說。
在一項(xiàng)相關(guān)的研究中,研究團(tuán)隊(duì)在最近的機(jī)器人學(xué)習(xí)會議上展示了他們?nèi)绾胃倪M(jìn) HuGE,使得 AI Agent 不僅能學(xué)習(xí)完成任務(wù),還能自主地重置環(huán)境繼續(xù)學(xué)習(xí)。例如,如果 AI Agent 學(xué)會了打開櫥柜,這種方法還能指導(dǎo)它關(guān)閉櫥柜。
“現(xiàn)在我們能讓它在沒有人工干預(yù)的情況下完全自主學(xué)習(xí),”他說。
研究團(tuán)隊(duì)還強(qiáng)調(diào),在這種以及其他學(xué)習(xí)方法中,確保 AI Agent與人類價(jià)值觀保持一致是至關(guān)重要的。
未來,研究團(tuán)隊(duì)計(jì)劃進(jìn)一步完善 HuGE,讓 AI Agent 能夠通過自然語言和與機(jī)器人的物理交互等更多方式學(xué)習(xí)。他們還對將這種方法應(yīng)用于同時(shí)訓(xùn)練多個(gè) AI Agent 表示出了興趣。
參考鏈接:
https://news.mit.edu/2023/method-uses-crowdsourced-feedback-help-train-robots-1127
https://arxiv.org/pdf/2307.11049.pdf
https://human-guided-exploration.github.io/HuGE/