新的學(xué)習(xí)模型可以在現(xiàn)實世界中快速“教會”機器人新的行為

日期：2022-11-08 作者：機器人生態(tài)圈瀏覽：43 違規(guī)舉報

訓(xùn)練機器人在現(xiàn)實世界中完成任務(wù)可能是一個非常耗時的過程，這涉及到建立一個快速高效的模擬器,，對其進行多次試驗，然后將在這些試驗中學(xué)習(xí)到的行為轉(zhuǎn)移到現(xiàn)實世界中,。然而,，在許多情況下，由于環(huán)境或任務(wù)的不可預(yù)測的變化,，模擬中獲得的性能與現(xiàn)實中獲得的不匹配,。

加州大學(xué)伯克利分校(UC Berkeley)的研究人員最近開發(fā)了一款名為DayDreamer的工具，可以用來訓(xùn)練機器人更有效地完成現(xiàn)實世界中的任務(wù),。他們的方法是基于世界的學(xué)習(xí)模型,，允許機器人預(yù)測他們的動作和行動的結(jié)果，減少了在現(xiàn)實世界中大量的試錯訓(xùn)練的需要,。

新的學(xué)習(xí)模型可以在現(xiàn)實世界中快速“教會”機器人新的行為

進行這項研究的研究人員之一丹尼爾·哈夫納(Danijar Hafner)說道:“我們希望制造出能夠在現(xiàn)實世界中直接持續(xù)學(xué)習(xí)的機器人,，而不需要創(chuàng)建模擬環(huán)境。我們之前只學(xué)習(xí)過電子游戲的世界模型,，所以看到同樣的算法也可以讓機器人在現(xiàn)實世界中快速學(xué)習(xí),，這是非常令人興奮的!”

使用他們的方法，研究人員能夠有效和快速地教機器人在現(xiàn)實世界中執(zhí)行特定的行為,。例如,，他們訓(xùn)練了一只機器狗，讓它在一個小時內(nèi)從背上滾下來,，站起來并走路,。

訓(xùn)練完成后，研究小組開始推機器人,，并發(fā)現(xiàn)在10分鐘內(nèi),，機器人也能夠承受推，或迅速用腳向后滾,。該團隊還在機械臂上測試了他們的工具,，訓(xùn)練它們拿起物體并把它們放在特定的地方，但沒有告訴它們物體最初的位置,。

哈夫納說:“我們發(fā)現(xiàn)機器人能夠適應(yīng)光照條件的變化,，比如陰影在一天中隨著太陽的移動而移動,。除了在現(xiàn)實世界中快速,、持續(xù)地學(xué)習(xí)外，相同的算法在四個不同的機器人和任務(wù)中都能很好地工作,。因此,，我們認為世界模型和在線適應(yīng)將在機器人技術(shù)發(fā)展中發(fā)揮重要作用?！?/p>

基于強化學(xué)習(xí)的計算模型可以隨著時間的推移教會機器人行為,，通過給予它們理想行為的獎勵,，例如良好的物體抓取策略或以合適的速度移動。通常,，這些模型都是經(jīng)過漫長的試錯過程訓(xùn)練的,，使用可以加快速度的模擬和現(xiàn)實世界中的實驗。

另一方面,，由哈夫納和他的同事開發(fā)的“夢想者”算法根據(jù)過去的“經(jīng)驗”構(gòu)建了一個世界模型,。這個世界模型可以用來教機器人基于“想象”互動的新行為。這大大減少了在現(xiàn)實環(huán)境中進行試驗的需要,，從而大大加快了訓(xùn)練過程,。

新的學(xué)習(xí)模型可以在現(xiàn)實世界中快速“教會”機器人新的行為

直接預(yù)測未來的感官輸入速度太慢，成本也太高,，尤其是當涉及相機圖像這樣的大輸入時,。世界模型首先學(xué)會將每個時間步的感覺輸入(電機角度、加速度計測量值,、相機圖像等)編碼為一個緊湊的表示,。給它一個表示法和一個運動指令，然后它學(xué)習(xí)預(yù)測下一個時間步驟的結(jié)果表示法,。

“夢想家”制造的世界模型允許機器人“想象”未來的表現(xiàn),，而不是處理原始的感官輸入。這反過來允許模型使用單個圖形處理單元(GPU)并行規(guī)劃數(shù)千個動作序列,。這些“想象”的序列有助于快速提高機器人在特定任務(wù)中的表現(xiàn),。

潛在特征在強化學(xué)習(xí)中的使用已經(jīng)在表征學(xué)習(xí)的背景下得到了廣泛的研究，這項研究的另一名研究人員亞歷杭德羅·埃斯孔雷拉說,，我們的想法是,，人們可以創(chuàng)建一個大型感官輸入(相機圖像、深度掃描)的緊湊表示,，從而減少模型大小,，可能還會減少所需的訓(xùn)練時間。然而,，表征學(xué)習(xí)技術(shù)仍然需要機器人與現(xiàn)實世界或模擬器進行長時間的互動來學(xué)習(xí)任務(wù),。“夢想家”可以讓機器人從想象的互動中學(xué)習(xí),，將其學(xué)習(xí)到的表征作為一個準確而高效的“模擬器”,。這使得機器人能夠在學(xué)習(xí)的世界模型中進行大量的訓(xùn)練。

在訓(xùn)練機器人的同時,，“夢想家”不斷收集新的經(jīng)驗,，并利用它們來增強其世界模型，從而改善機器人的行為,。他們的方法允許研究人員在一小時內(nèi)訓(xùn)練一個四足機器人行走并適應(yīng)特定的環(huán)境刺激,，而不需要使用模擬器,，這是以前從未實現(xiàn)過的。

哈夫納說:“我們設(shè)想,，在未來,，這項技術(shù)將使用戶能夠在現(xiàn)實世界中直接教機器人許多新技能，從而無需為每項任務(wù)設(shè)計模擬器,。這也為制造能夠適應(yīng)硬件故障的機器人打開了大門,，比如即使一條腿的馬達壞了，機器人也能行走,?！?/p>

在他們最初的測試中，Hafner, Escontrela, Philip Wu和他們的同事還用他們的方法訓(xùn)練機器人拿起物體并將它們放在特定的地方,。這項工作每天都是由人類工人在倉庫和裝配線上完成的,，對于機器人來說可能很難完成，尤其是當它們期望撿到的物體的位置未知時,。

這項任務(wù)的另一個困難是,，在機器人真正掌握某些東西之前，我們不能給它中間反饋或獎勵,，所以沒有中間指導(dǎo),，機器人可以探索很多東西。在10個小時的完全自主操作中,，使用“夢想家”進行訓(xùn)練的機器人的性能接近人類遠程操作員,。這一結(jié)果表明，世界模型是倉庫和裝配線自動化工作站的一種有前途的方法,。

在他們的實驗中,，研究人員成功地使用做夢者算法訓(xùn)練了四個形態(tài)不同的機器人完成各種任務(wù)。使用傳統(tǒng)的強化學(xué)習(xí)方法訓(xùn)練這些機器人通常需要大量的人工調(diào)優(yōu),，在不需要額外調(diào)優(yōu)的情況下就能很好地完成任務(wù),。

哈夫納說根據(jù)我們的研究結(jié)果，我們預(yù)計會有更多的機器人團隊開始使用和改進“夢想家”,，以解決更具挑戰(zhàn)性的機器人問題,。擁有一種開箱即用的強化學(xué)習(xí)算法，可以讓團隊有更多時間專注于構(gòu)建機器人硬件,，并指定他們想用世界模型自動化的任務(wù),。

該算法可以很容易地應(yīng)用于機器人，其代碼將很快開源,。這意味著其他團隊很快就能使用它來使用世界模型訓(xùn)練他們自己的機器人,。

Hafner, Escontrela, Wu和他們的同事現(xiàn)在想要進行新的實驗,，給一個四足機器人裝備一個攝像頭,，這樣它不僅能學(xué)會走路,，還能識別附近的物體。這將使機器人能夠處理更復(fù)雜的任務(wù),，例如避開障礙物,，識別環(huán)境中感興趣的物體，或在人類用戶旁邊行走,。

哈夫納補充道,，機器人領(lǐng)域的一個公開挑戰(zhàn)是，用戶如何直觀地為機器人指定任務(wù),。在我們的工作中,，我們實現(xiàn)了機器人作為Python函數(shù)優(yōu)化的獎勵信號，但最終它會很好,，通過直接告訴機器人什么時候做對了或錯了,，從人類的偏好來教機器人。這可以通過按下一個按鈕來給予獎勵,，甚至可以讓機器人理解人類語言,。

到目前為止，該團隊只使用他們的算法訓(xùn)練機器人完成特定的任務(wù),，這些任務(wù)在他們的實驗開始時就已經(jīng)明確定義,。然而，在未來,，他們還想訓(xùn)練機器人探索環(huán)境,，而不是解決明確定義的任務(wù)。

一個有前途的方向是,，通過人工的好奇心,，訓(xùn)練機器人在沒有任務(wù)的情況下探索周圍環(huán)境，然后更快地適應(yīng)用戶指定的任務(wù),。

免責(zé)聲明：
1,、本站所收集的部分公開資料來源于互聯(lián)網(wǎng)，轉(zhuǎn)載的目的在于傳遞更多信息及用于網(wǎng)絡(luò)分享,，并不代表本站贊同其觀點和對其真實性負責(zé),，也不構(gòu)成任何其他建議。
2,、本站部分作品內(nèi)容是由網(wǎng)友自主投稿和發(fā)布,、編輯整理上傳，對此類內(nèi)容本站僅提供交流平臺,，不為其版權(quán)負責(zé),，更不為其觀點承擔(dān)任何責(zé)任。
3,、因行業(yè)及專業(yè)性有限,，故未能核驗會員發(fā)布內(nèi)容的真實性及有效性,，不為其負責(zé)，如有虛假或違規(guī)內(nèi)容敬請準備材料圖片發(fā)郵件到info@n#舉報,，本站核實后積極配合刪除,。
4、如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識產(chǎn)權(quán)的作品,，請與我們?nèi)〉寐?lián)系,，我們會及時處理或刪除。

標簽： 機器人世界模型算法環(huán)境

更多>同類資訊文章

0 條相關(guān)評論

推薦圖文

2018年三大類傳感器占	自動駕駛競爭加劇 201
新增1500臺工業(yè)機器人

推薦資訊文章

• 2024年世界機器人大會將于8月份在北京舉辦	• 2024年世界機器人大會
• 2024天津機器人展\|2024天津工博會·機器人展	• 華為在東莞成立極目機器人公司注冊資本為8.7億
• 全球規(guī)模最大,！京東亞洲一號第100億件智能包裹	• 馬斯克稱人類已經(jīng)是半機器人：大腦思維上傳服務(wù)
• 王炸更新,！谷歌發(fā)布PaLM 2大模型：支持100種語	• 2023世界機器人大會將于8月在北京召開
• 2023北京住博會中國智能建造與建筑工業(yè)化展【	• ChatGPT消除無聊的工作諾獎得主：人類上四休三