日韩一区二区三区北条麻妃,和邻居少妇愉情中文字幕

為了教會 AI Agent 新技能，比如打開廚房櫥柜，研究者通常采用強(qiáng)化學(xué)習(xí)方法。這是一種試錯(cuò)過程，AI Agent 通過采取正確的行動(dòng)接近目標(biāo)而獲得獎(jiǎng)勵(lì)。

在大多數(shù)情況下，人類專家需要精心設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，從而鼓勵(lì) AI Agent 進(jìn)行更多探索。隨著 AI Agent 的探索和嘗試，人類專家需要不斷更新這個(gè)獎(jiǎng)勵(lì)函數(shù)。這一過程既耗時(shí)又低效，特別是在任務(wù)復(fù)雜、步驟繁多時(shí)，擴(kuò)展起來更是十分困難。

日前，麻省理工學(xué)院（MIT）、哈佛大學(xué)和華盛頓大學(xué)的研究團(tuán)隊(duì)開發(fā)了一種新型強(qiáng)化學(xué)習(xí)方法，這種方法不依賴專家設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)，而是利用來自許多非專家用戶的眾包反饋（crowdsourced feedback），來指導(dǎo) AI Agent 達(dá)成學(xué)習(xí)目標(biāo)。

盡管用戶眾包數(shù)據(jù)常常存在錯(cuò)誤，這種新方法依然能夠讓 AI Agent 更快速地學(xué)習(xí)，這與其他嘗試使用非專家反饋的方法有所不同，而這些噪聲數(shù)據(jù)通常會讓其他方法失效。

此外，這種新方法支持異步收集反饋，使得全球各地的非專家用戶都可以參與到教導(dǎo) AI Agent 的過程中。

MIT 電氣工程與計(jì)算機(jī)科學(xué)系助理教授、Improbable AI Lab 主任 Pulkit Agrawal 表示：“在設(shè)計(jì) AI Agent 時(shí)，最耗時(shí)且具挑戰(zhàn)性的部分之一就是設(shè)定獎(jiǎng)勵(lì)函數(shù)。當(dāng)前，獎(jiǎng)勵(lì)函數(shù)主要由專家設(shè)計(jì)，如果我們想讓機(jī)器人學(xué)習(xí)多種任務(wù)，這種方式是難以擴(kuò)展的。我們的研究提出了一種方案，通過眾包來設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，并讓非專家參與提供有效反饋，從而擴(kuò)大機(jī)器人的學(xué)習(xí)范圍?！?/p>

未來，這種方法可以幫助機(jī)器人在人們家中快速學(xué)習(xí)特定任務(wù)，而無需人們親自示范每項(xiàng)任務(wù)。機(jī)器人可以獨(dú)立探索，由眾包的非專家反饋引導(dǎo)其探索方向。

“在我們的方法中，獎(jiǎng)勵(lì)函數(shù)不是直接告訴 AI Agent怎樣完成任務(wù)，而是指導(dǎo)它應(yīng)該探索的方向。因此，即便人類監(jiān)督存在一定的不準(zhǔn)確性和噪聲，AI Agent仍然能夠進(jìn)行有效探索，從而更好地學(xué)習(xí)，”Improbable AI Lab 研究助理、論文主要作者之一 Marcel Torne 解釋說。

即使接收的答案有誤，也能完成任務(wù)

一種收集強(qiáng)化學(xué)習(xí)用戶反饋的方法是向用戶展示 AI Agent 達(dá)到的兩種狀態(tài)的照片，并詢問哪種狀態(tài)更接近目標(biāo)。例如，設(shè)想一個(gè)機(jī)器人的目標(biāo)是打開廚房櫥柜，其中一張照片可能顯示它成功打開了櫥柜，另一張則可能顯示它打開了微波爐。用戶需要選擇表現(xiàn)更佳狀態(tài)的照片。

有些早期方法嘗試使用這種眾包形式的二元反饋，來優(yōu)化 AI Agent 用以學(xué)習(xí)任務(wù)的獎(jiǎng)勵(lì)函數(shù)。但問題在于，非專業(yè)人士容易出錯(cuò)，這會導(dǎo)致獎(jiǎng)勵(lì)函數(shù)變得極為混亂，以至于 AI Agent 可能無法達(dá)成目標(biāo)。

Torne 指出：“實(shí)際上，AI Agent 會過分認(rèn)真地對待獎(jiǎng)勵(lì)函數(shù)，努力完美符合這一函數(shù)。因此，我們不直接優(yōu)化獎(jiǎng)勵(lì)函數(shù)，而是用它來指導(dǎo)機(jī)器人應(yīng)探索的區(qū)域?！?/p>

研究團(tuán)隊(duì)將這一過程分成兩個(gè)獨(dú)立部分，每部分由各自的算法驅(qū)動(dòng)。他們將這種新型增強(qiáng)學(xué)習(xí)方法命名為人類引導(dǎo)探索（Human Guided Exploration，HuGE）。

一方面，目標(biāo)選擇算法會持續(xù)接收眾包的人類反饋并進(jìn)行更新。這些反饋并非用作獎(jiǎng)勵(lì)函數(shù)，而是用于指引 AI Agent 的探索方向。簡而言之，非專業(yè)用戶提供的指引就像一路撒下的“面包屑”，逐漸引導(dǎo) AI Agent 接近目標(biāo)。

另一方面，AI Agent 自己也會進(jìn)行探索，這一過程是自我監(jiān)督的，由目標(biāo)選擇器進(jìn)行指導(dǎo)。它會收集自己嘗試的動(dòng)作的圖像或視頻，隨后發(fā)送給人類，用于更新目標(biāo)選擇器。

這樣做有助于縮小 AI Agent 需要探索的范圍，引導(dǎo)它前往更接近目標(biāo)的有希望的區(qū)域。但如果暫時(shí)沒有反饋，或反饋遲遲未到，AI Agent 仍會繼續(xù)自行學(xué)習(xí)，盡管速度較慢。這種方式允許反饋的收集不那么頻繁，也可以異步進(jìn)行。

Torne 補(bǔ)充道：“探索過程可以自主、持續(xù)進(jìn)行，因?yàn)樗鼤粩嗵剿鞑W(xué)習(xí)新知識。當(dāng)接收到更準(zhǔn)確的信號時(shí)，它會以更明確的方式進(jìn)行探索。它們可以按照各自的節(jié)奏運(yùn)轉(zhuǎn)。”

由于反饋只是輕微地引導(dǎo) AI Agent 的行為，即使用戶提供的答案有誤，AI Agent 最終也能學(xué)會如何完成任務(wù)。

更快的學(xué)習(xí)

研究團(tuán)隊(duì)在一系列模擬和真實(shí)環(huán)境的任務(wù)中測試了這種方法。

例如，在模擬環(huán)境中，他們利用 HuGE 高效學(xué)習(xí)一系列復(fù)雜動(dòng)作，比如按特定順序堆積積木或在迷宮中導(dǎo)航。

在真實(shí)環(huán)境的測試中，他們用 HuGE 訓(xùn)練機(jī)器人手臂來繪制字母“U”和拾取放置物體。這些測試匯集了來自三大洲 13 個(gè)國家的 109 名非專業(yè)用戶的數(shù)據(jù)。

無論是在真實(shí)世界還是模擬實(shí)驗(yàn)中，HuGE 都使得 AI Agent學(xué)習(xí)完成任務(wù)的速度比其他方法更快。

此外，與制作和標(biāo)注的合成數(shù)據(jù)相比，非專家眾包的數(shù)據(jù)表現(xiàn)更佳。對非專家用戶而言，標(biāo)注 30 張圖片或視頻不到兩分鐘就能完成?！斑@展示了這種方法在擴(kuò)展應(yīng)用方面的巨大潛力，”Torne 補(bǔ)充說。

在一項(xiàng)相關(guān)的研究中，研究團(tuán)隊(duì)在最近的機(jī)器人學(xué)習(xí)會議上展示了他們?nèi)绾胃倪M(jìn) HuGE，使得 AI Agent 不僅能學(xué)習(xí)完成任務(wù)，還能自主地重置環(huán)境繼續(xù)學(xué)習(xí)。例如，如果 AI Agent 學(xué)會了打開櫥柜，這種方法還能指導(dǎo)它關(guān)閉櫥柜。

“現(xiàn)在我們能讓它在沒有人工干預(yù)的情況下完全自主學(xué)習(xí)，”他說。

研究團(tuán)隊(duì)還強(qiáng)調(diào)，在這種以及其他學(xué)習(xí)方法中，確保 AI Agent與人類價(jià)值觀保持一致是至關(guān)重要的。

未來，研究團(tuán)隊(duì)計(jì)劃進(jìn)一步完善 HuGE，讓 AI Agent 能夠通過自然語言和與機(jī)器人的物理交互等更多方式學(xué)習(xí)。他們還對將這種方法應(yīng)用于同時(shí)訓(xùn)練多個(gè) AI Agent 表示出了興趣。

參考鏈接：

https://news.mit.edu/2023/method-uses-crowdsourced-feedback-help-train-robots-1127

https://arxiv.org/pdf/2307.11049.pdf

https://human-guided-exploration.github.io/HuGE/

即使人類犯錯(cuò)，AI Agent也能快速學(xué)習(xí)！

即使人類犯錯(cuò)，AI Agent也能快速學(xué)習(xí)！