精品久久久久久无码专区_久久精品国产99久久久古代_久久精品人妻无码一区二区三区_久久婷婷综合色丁香五月_老色鬼久久亚洲AV综合_两个人看的WWW在线观看_麻豆精产国品一二三产区区_最近中文字幕免费MV在线视频_影音先锋女人AA鲁色资源_男人扒开女人内裤强吻桶进去,国产精品自在拍首页,AV高潮娇喘抽搐喷水视频,日韩av片无码一区二区不卡电影

推廣 熱搜: APP  品牌  深圳APP外包公司  中國  發(fā)展  吉三代  智能  出口  產(chǎn)業(yè)  手機 

新的學(xué)習(xí)模型可以在現(xiàn)實世界中快速“教會”機器人新的行為

   日期:2022-11-08     作者:機器人生態(tài)圈    瀏覽:43    違規(guī)舉報
 
騰訊云服務(wù)器優(yōu)惠

訓(xùn)練機器人在現(xiàn)實世界中完成任務(wù)可能是一個非常耗時的過程,這涉及到建立一個快速高效的模擬器,,對其進行多次試驗,然后將在這些試驗中學(xué)習(xí)到的行為轉(zhuǎn)移到現(xiàn)實世界中,。然而,,在許多情況下,由于環(huán)境或任務(wù)的不可預(yù)測的變化,,模擬中獲得的性能與現(xiàn)實中獲得的不匹配,。

加州大學(xué)伯克利分校(UC Berkeley)的研究人員最近開發(fā)了一款名為DayDreamer的工具,可以用來訓(xùn)練機器人更有效地完成現(xiàn)實世界中的任務(wù),。他們的方法是基于世界的學(xué)習(xí)模型,,允許機器人預(yù)測他們的動作和行動的結(jié)果,減少了在現(xiàn)實世界中大量的試錯訓(xùn)練的需要,。

新的學(xué)習(xí)模型可以在現(xiàn)實世界中快速“教會”機器人新的行為

進行這項研究的研究人員之一丹尼爾·哈夫納(Danijar Hafner)說道:“我們希望制造出能夠在現(xiàn)實世界中直接持續(xù)學(xué)習(xí)的機器人,,而不需要創(chuàng)建模擬環(huán)境。我們之前只學(xué)習(xí)過電子游戲的世界模型,,所以看到同樣的算法也可以讓機器人在現(xiàn)實世界中快速學(xué)習(xí),,這是非常令人興奮的!”

使用他們的方法,研究人員能夠有效和快速地教機器人在現(xiàn)實世界中執(zhí)行特定的行為,。例如,,他們訓(xùn)練了一只機器狗,讓它在一個小時內(nèi)從背上滾下來,,站起來并走路,。

訓(xùn)練完成后,研究小組開始推機器人,,并發(fā)現(xiàn)在10分鐘內(nèi),,機器人也能夠承受推,或迅速用腳向后滾,。該團隊還在機械臂上測試了他們的工具,,訓(xùn)練它們拿起物體并把它們放在特定的地方,但沒有告訴它們物體最初的位置,。

哈夫納說:“我們發(fā)現(xiàn)機器人能夠適應(yīng)光照條件的變化,,比如陰影在一天中隨著太陽的移動而移動,。除了在現(xiàn)實世界中快速,、持續(xù)地學(xué)習(xí)外,相同的算法在四個不同的機器人和任務(wù)中都能很好地工作,。因此,,我們認為世界模型和在線適應(yīng)將在機器人技術(shù)發(fā)展中發(fā)揮重要作用?!?/p>

基于強化學(xué)習(xí)的計算模型可以隨著時間的推移教會機器人行為,,通過給予它們理想行為的獎勵,,例如良好的物體抓取策略或以合適的速度移動。通常,,這些模型都是經(jīng)過漫長的試錯過程訓(xùn)練的,,使用可以加快速度的模擬和現(xiàn)實世界中的實驗。

另一方面,,由哈夫納和他的同事開發(fā)的“夢想者”算法根據(jù)過去的“經(jīng)驗”構(gòu)建了一個世界模型,。這個世界模型可以用來教機器人基于“想象”互動的新行為。這大大減少了在現(xiàn)實環(huán)境中進行試驗的需要,,從而大大加快了訓(xùn)練過程,。

新的學(xué)習(xí)模型可以在現(xiàn)實世界中快速“教會”機器人新的行為

直接預(yù)測未來的感官輸入速度太慢,成本也太高,,尤其是當涉及相機圖像這樣的大輸入時,。世界模型首先學(xué)會將每個時間步的感覺輸入(電機角度、加速度計測量值,、相機圖像等)編碼為一個緊湊的表示,。給它一個表示法和一個運動指令,然后它學(xué)習(xí)預(yù)測下一個時間步驟的結(jié)果表示法,。

“夢想家”制造的世界模型允許機器人“想象”未來的表現(xiàn),,而不是處理原始的感官輸入。這反過來允許模型使用單個圖形處理單元(GPU)并行規(guī)劃數(shù)千個動作序列,。這些“想象”的序列有助于快速提高機器人在特定任務(wù)中的表現(xiàn),。

潛在特征在強化學(xué)習(xí)中的使用已經(jīng)在表征學(xué)習(xí)的背景下得到了廣泛的研究,這項研究的另一名研究人員亞歷杭德羅·埃斯孔雷拉說,,我們的想法是,,人們可以創(chuàng)建一個大型感官輸入(相機圖像、深度掃描)的緊湊表示,,從而減少模型大小,,可能還會減少所需的訓(xùn)練時間。然而,,表征學(xué)習(xí)技術(shù)仍然需要機器人與現(xiàn)實世界或模擬器進行長時間的互動來學(xué)習(xí)任務(wù),。“夢想家”可以讓機器人從想象的互動中學(xué)習(xí),,將其學(xué)習(xí)到的表征作為一個準確而高效的“模擬器”,。這使得機器人能夠在學(xué)習(xí)的世界模型中進行大量的訓(xùn)練。

在訓(xùn)練機器人的同時,,“夢想家”不斷收集新的經(jīng)驗,,并利用它們來增強其世界模型,從而改善機器人的行為,。他們的方法允許研究人員在一小時內(nèi)訓(xùn)練一個四足機器人行走并適應(yīng)特定的環(huán)境刺激,,而不需要使用模擬器,,這是以前從未實現(xiàn)過的。

哈夫納說:“我們設(shè)想,,在未來,,這項技術(shù)將使用戶能夠在現(xiàn)實世界中直接教機器人許多新技能,從而無需為每項任務(wù)設(shè)計模擬器,。這也為制造能夠適應(yīng)硬件故障的機器人打開了大門,,比如即使一條腿的馬達壞了,機器人也能行走,?!?/p>

在他們最初的測試中,Hafner, Escontrela, Philip Wu和他們的同事還用他們的方法訓(xùn)練機器人拿起物體并將它們放在特定的地方,。這項工作每天都是由人類工人在倉庫和裝配線上完成的,,對于機器人來說可能很難完成,尤其是當它們期望撿到的物體的位置未知時,。

這項任務(wù)的另一個困難是,,在機器人真正掌握某些東西之前,我們不能給它中間反饋或獎勵,,所以沒有中間指導(dǎo),,機器人可以探索很多東西。在10個小時的完全自主操作中,,使用“夢想家”進行訓(xùn)練的機器人的性能接近人類遠程操作員,。這一結(jié)果表明,世界模型是倉庫和裝配線自動化工作站的一種有前途的方法,。

在他們的實驗中,,研究人員成功地使用做夢者算法訓(xùn)練了四個形態(tài)不同的機器人完成各種任務(wù)。使用傳統(tǒng)的強化學(xué)習(xí)方法訓(xùn)練這些機器人通常需要大量的人工調(diào)優(yōu),,在不需要額外調(diào)優(yōu)的情況下就能很好地完成任務(wù),。

哈夫納說根據(jù)我們的研究結(jié)果,我們預(yù)計會有更多的機器人團隊開始使用和改進“夢想家”,,以解決更具挑戰(zhàn)性的機器人問題,。擁有一種開箱即用的強化學(xué)習(xí)算法,可以讓團隊有更多時間專注于構(gòu)建機器人硬件,,并指定他們想用世界模型自動化的任務(wù),。

該算法可以很容易地應(yīng)用于機器人,其代碼將很快開源,。這意味著其他團隊很快就能使用它來使用世界模型訓(xùn)練他們自己的機器人,。

Hafner, Escontrela, Wu和他們的同事現(xiàn)在想要進行新的實驗,,給一個四足機器人裝備一個攝像頭,,這樣它不僅能學(xué)會走路,,還能識別附近的物體。這將使機器人能夠處理更復(fù)雜的任務(wù),,例如避開障礙物,,識別環(huán)境中感興趣的物體,或在人類用戶旁邊行走,。

哈夫納補充道,,機器人領(lǐng)域的一個公開挑戰(zhàn)是,用戶如何直觀地為機器人指定任務(wù),。在我們的工作中,,我們實現(xiàn)了機器人作為Python函數(shù)優(yōu)化的獎勵信號,但最終它會很好,,通過直接告訴機器人什么時候做對了或錯了,,從人類的偏好來教機器人。這可以通過按下一個按鈕來給予獎勵,,甚至可以讓機器人理解人類語言,。

到目前為止,該團隊只使用他們的算法訓(xùn)練機器人完成特定的任務(wù),,這些任務(wù)在他們的實驗開始時就已經(jīng)明確定義,。然而,在未來,,他們還想訓(xùn)練機器人探索環(huán)境,,而不是解決明確定義的任務(wù)。

一個有前途的方向是,,通過人工的好奇心,,訓(xùn)練機器人在沒有任務(wù)的情況下探索周圍環(huán)境,然后更快地適應(yīng)用戶指定的任務(wù),。

免責(zé)聲明:
1,、本站所收集的部分公開資料來源于互聯(lián)網(wǎng),轉(zhuǎn)載的目的在于傳遞更多信息及用于網(wǎng)絡(luò)分享,,并不代表本站贊同其觀點和對其真實性負責(zé),,也不構(gòu)成任何其他建議。
2,、本站部分作品內(nèi)容是由網(wǎng)友自主投稿和發(fā)布,、編輯整理上傳,對此類內(nèi)容本站僅提供交流平臺,,不為其版權(quán)負責(zé),,更不為其觀點承擔(dān)任何責(zé)任。
3,、因行業(yè)及專業(yè)性有限,,故未能核驗會員發(fā)布內(nèi)容的真實性及有效性,,不為其負責(zé),如有虛假或違規(guī)內(nèi)容敬請準備材料圖片發(fā)郵件到info@n#舉報,,本站核實后積極配合刪除,。
4、如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識產(chǎn)權(quán)的作品,,請與我們?nèi)〉寐?lián)系,,我們會及時處理或刪除。
 
 
更多>同類資訊文章
0相關(guān)評論

推薦圖文
推薦資訊文章
點擊排行
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  使用協(xié)議  |  免責(zé)聲明  |  版權(quán)隱私  |  信息發(fā)布規(guī)則  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務(wù)  |  積分換禮  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  粵ICP備2020081222號
Powered By DESTOON