沭陽網首頁   |   手機沭陽網   |   網站地圖  
您的位置:沭陽網首頁 > 科技頻道 > 科學探索>正文

向機器人展示“堅強的愛”可以幫助他們成功

2020-02-06 18:49:35    來源:    我來說兩句()
字號:TT

 根據USC計算機科學家的一項新研究,為幫助機器人成功,您可能需要表現出一些堅強的愛。

在計算機模擬的操縱任務中,研究人員發現與人類對手一起訓練機器人可以大大提高其對物體的抓地力。

研究合著者,計算機科學助理教授史蒂芬諾斯·尼古拉迪斯(Stefanos Nikolaidis)說:“這是使用對抗性人類用戶進行的第一次機器人學習。”

“想象一下就像參加一項運動:如果您與一個總是讓您獲勝的人一起打網球,您將不會變得更好。與機器人相同。如果我們希望他們學習諸如抓地力之類的操縱任務,那么他們就可以幫助人們,我們需要挑戰他們。”

這項名為“通過人類對抗游戲進行機器人學習”的研究于11月4日在智能機器人與系統國際會議上發表。USC博士生段佳麗和王謙是CC Jay Kuo教授的指導下的主要作者,以及卡內基梅隆大學的另一位合著者Lerrel Pinto。

從實踐中學習

尼古拉迪斯(Nikolaidis)于2018年加入南加州大學維特比工程學院,他的團隊使用強化學習,這是一種人工智能程序通過反復實驗“學習”的技術。

機器人系統不僅僅限于完成諸如工業機器人之類的小范圍重復任務,它還基于先前的示例“學習”,理論上增加了它可以執行的任務范圍。

但是,創建通用機器人的挑戰非常艱巨,部分原因是需要大量的培訓。機器人系統需要查看大量示例,以學習如何以類人的方式操作對象。

例如,OpenAI令人印象深刻的機器人系統學會了用類人動物的手解決魔方,但是需要相當于10,000年的模擬訓練才能學會操作該魔方。

更重要的是,機器人的靈活性非常具體。沒有大量的培訓,它就無法撿起物體,用另一個握把操縱它或抓握和搬運另一個物體。

“作為一個人,即使我知道物體的位置,我也不知道它重了多少,或者當我拿起它時會如何運動或表現,但我們幾乎始終都能成功做到這一點。” 。

“這是因為人們對世界的行為非常直覺,但是機器人就像新生嬰兒。”

換句話說,機器人系統很難推廣,這是人類理所當然的技能。這看似微不足道,但可能會導致嚴重的后果。如果諸如抓地機器人之類的輔助機器人設備要履行其幫助殘疾人的承諾,則機器人系統必須能夠在現實環境中可靠運行。

人在循環

在克服這一問題方面非常成功的一項研究是“將人引入循環”。換句話說,人類通過展示完成任務的能力向機器人系統提供反饋。

但是,直到現在,這些算法已經做出了強有力的假設,即需要協作的人類主管來協助機器人。

尼古拉迪斯說:“我一直致力于人機協作,但實際上,人們并不總是在野外與機器人合作。”

例如,他指出了日本研究人員的一項研究,該研究人員在公共購物中心內放開了一個機器人,并觀察到兒童多次“朝著它猛烈行動”。

那么,尼古拉迪斯想,如果我們利用人類的傾向使機器人變得更困難呢?如果不嘗試顯示如何更好地抓取對象,而是嘗試將其拉出怎么辦?通過思考,通過添加挑戰,該系統將學會對現實世界的復雜性更加強大。

挑戰要素

實驗是這樣的:在計算機仿真中,機器人試圖抓住一個物體。人類在計算機上觀察模擬機器人的抓地力。如果抓握成功,則人類會嘗試使用鍵盤來指示方向,從而從機器人的抓握中搶走物體。

添加挑戰元素可以幫助機器人了解較弱的抓緊力(例如,將瓶子握在頂部)與牢固的抓緊力(將其握在中間)之間的區別,這會使對手更難以搶走。

Nikolaidis承認,這是一個瘋狂的主意,但它確實有效。

研究人員發現,經過人類對手訓練的系統拒絕了不穩定的抓握,并迅速學習了這些物體的穩健抓握。在一個實驗中,該模型在人類對手的掌握下成功率達到52%,而在人類協作者的掌握下成功率為26.5%。

尼古拉迪斯說:“機器人不僅學會了如何更穩固地抓取物體,而且還學會了以不同的方向使用新物體來獲得更多的成功,因為它學會了更穩定的抓握。”

他們還發現,由人類對手訓練的模型比模擬對手表現更好,后者的抓取成功率高達28%。因此,機器人系統從有血有肉的對手那里學習得最好。

尼古拉迪斯解釋說:“這是因為人類比學過的對手更能理解穩定性和魯棒性。”

“機器人試圖撿拾東西,如果人類試圖破壞東西,它將導致更穩定的抓握。并且由于它學會了更穩定的抓握,即使物體處于不同的位置,它也將更頻繁地成功。換句話說,它已經學會了概括。這很重要。”

尋找平衡

尼古拉迪斯(Nikolaidis)希望該系統能在一年內在真正的機器人手臂上運行。這將提出新的挑戰-在現實世界中,機器人關節中的絲毫摩擦或噪音會把東西扔掉。但是尼古拉迪斯(Nikolaidis)對機器人對抗性學習的未來充滿希望。

尼古拉迪斯說:“我認為我們只是通過對抗性人類游戲觸及了學習的潛在應用面。”

“我們也很高興探索在其他任務中的在環對抗學習,例如避免機械臂和移動機器人(例如自動駕駛汽車)的障礙。”

這就引出了一個問題:我們愿意進行對抗性學習多遠?我們愿意踢和擊敗機器人屈服嗎?尼古拉迪斯說,答案在于與我們的機器人同行尋求艱難的愛與鼓勵之間的平衡。

尼古拉迪斯說:“在我們提出的算法中,我感到艱難的愛再次像一項運動:它屬于特定的規則和約束。”

“如果人類只是打破了機器人的抓手,機器人將不斷失敗并且永遠不會學習。換句話說,機器人需要受到挑戰,但仍然可以成功學習。”

責任編輯:

相關新聞
    無相關信息

澳门赌场图片