機(jī)器人不能依賴于從互聯(lián)網(wǎng)上抓取訓(xùn)練數(shù)據(jù),而要從機(jī)器人數(shù)據(jù)中學(xué)習(xí),這些數(shù)據(jù)通常由研究人員在實(shí)驗(yàn)室環(huán)境中為特定任務(wù)創(chuàng)建。如果沒(méi)有豐富的數(shù)據(jù),就無(wú)法讓機(jī)器人在實(shí)驗(yàn)室外完成現(xiàn)實(shí)世界的任務(wù)。科學(xué)家希望從世界各地所有機(jī)器人共享的數(shù)據(jù)中受益,同時(shí)融入互聯(lián)網(wǎng)數(shù)據(jù)賦予機(jī)器人推理能力,以此開發(fā)通用機(jī)器人大腦,驅(qū)動(dòng)任何機(jī)器人。
來(lái)自世界各地的機(jī)器人分享數(shù)據(jù),幫助開發(fā)通用機(jī)器人大腦
大語(yǔ)言模型可以回答問(wèn)題、寫代碼、吟詩(shī),圖像生成系統(tǒng)可以創(chuàng)造洞穴壁畫、當(dāng)代藝術(shù)。那么,能擦桌子、疊衣服、做早餐的通用機(jī)器人在哪里?如果將許多機(jī)器人的經(jīng)驗(yàn)匯集在一起,一個(gè)新的機(jī)器人是否可以一次性向所有機(jī)器人學(xué)習(xí)呢?
2023年,谷歌和加州大學(xué)伯克利分校的實(shí)驗(yàn)室與北美、歐洲和亞洲的其他32個(gè)機(jī)器人實(shí)驗(yàn)室一起開展了RT-X項(xiàng)目,試圖開發(fā)通用機(jī)器人大腦。這34個(gè)實(shí)驗(yàn)室的目標(biāo)是匯集數(shù)據(jù)、資源和代碼,使通用機(jī)器人成為現(xiàn)實(shí),讓單一深度神經(jīng)網(wǎng)絡(luò)控制不同類型的機(jī)器人。
最近,加州大學(xué)伯克利分校副教授、谷歌研究科學(xué)家謝爾蓋·萊文(Sergey Levine)等人撰文分享了這個(gè)全球項(xiàng)目的進(jìn)展和成果。他設(shè)想也許未來(lái)機(jī)器人的新技能可以通過(guò)模型微調(diào)甚至是預(yù)訓(xùn)練模型來(lái)實(shí)現(xiàn),就像在不訓(xùn)練ChatGPT的情況下讓它講一個(gè)故事一樣,未來(lái)可以讓機(jī)器人在蛋糕上寫“生日快樂(lè)”,而不必告訴它如何使用裱花袋或手寫文本是什么樣的。
機(jī)器人把蘋果放在罐頭和橙子中間。(00:18)
創(chuàng)造一個(gè)通用機(jī)器人
生成式人工智能利用互聯(lián)網(wǎng)上的大量數(shù)據(jù)訓(xùn)練大模型,但這些成果并不能輕易轉(zhuǎn)移到機(jī)器人領(lǐng)域,因?yàn)闄C(jī)器人不能依賴于從互聯(lián)網(wǎng)上抓取訓(xùn)練數(shù)據(jù),互聯(lián)網(wǎng)上也沒(méi)有大量的機(jī)器人交互數(shù)據(jù)。
機(jī)器人需要從機(jī)器人數(shù)據(jù)中學(xué)習(xí),而這些數(shù)據(jù)通常由研究人員在實(shí)驗(yàn)室環(huán)境中為特定任務(wù)緩慢而乏味地創(chuàng)建。盡管機(jī)器人學(xué)習(xí)算法取得了巨大進(jìn)步,但如果沒(méi)有豐富的數(shù)據(jù),我們?nèi)匀粺o(wú)法讓機(jī)器人在實(shí)驗(yàn)室之外完成現(xiàn)實(shí)世界的任務(wù)。
為此,科學(xué)家試圖利用多種機(jī)器人的不同數(shù)據(jù),來(lái)解決機(jī)器人的學(xué)習(xí)問(wèn)題,制造通用機(jī)器人大腦。
“一個(gè)深度神經(jīng)網(wǎng)絡(luò)能否在來(lái)自足夠多不同機(jī)器人的數(shù)據(jù)上訓(xùn)練,從而學(xué)會(huì)驅(qū)動(dòng)具有不同外觀、物理特性和能力的所有機(jī)器人?如果可行,這可能會(huì)為機(jī)器人的學(xué)習(xí)解鎖大型數(shù)據(jù)集的力量。”萊文表示,RT-X數(shù)據(jù)集目前包含了22種機(jī)器人、近100萬(wàn)次試驗(yàn),數(shù)據(jù)集中的機(jī)器人執(zhí)行拾放物體、組裝等各種行為,這是目前真實(shí)機(jī)器人動(dòng)作的最大開源數(shù)據(jù)集,研究人員可訓(xùn)練機(jī)器人控制算法。
“就像一個(gè)人可以用同一個(gè)大腦開車或騎自行車一樣,在RT-X數(shù)據(jù)集上訓(xùn)練的模型可以簡(jiǎn)單地從機(jī)器人自己的攝像頭觀察中識(shí)別出它所控制的機(jī)器人類型。”萊文舉例,如果機(jī)器人的攝像頭看到UR10工業(yè)臂,該模型將發(fā)送適合UR10的命令。
為了測(cè)試模型能力,參與RT-X項(xiàng)目的5個(gè)實(shí)驗(yàn)室,將他們獨(dú)立開發(fā)的機(jī)器人最佳控制系統(tǒng)跟RT-X數(shù)據(jù)集訓(xùn)練出來(lái)的模型進(jìn)行對(duì)比。結(jié)果顯示,統(tǒng)一模型比每個(gè)實(shí)驗(yàn)室自己的最佳方法具有更好的性能,平均成功率提高了50%左右。
研究人員還發(fā)現(xiàn),RT-X訓(xùn)練出來(lái)的模型可以利用其他機(jī)器人的不同經(jīng)驗(yàn)來(lái)提高不同環(huán)境下的魯棒性。即使在同一個(gè)實(shí)驗(yàn)室里,每次機(jī)器人嘗試一項(xiàng)任務(wù)時(shí),它都會(huì)發(fā)現(xiàn)自己處于略有不同的情況中,因此會(huì)借鑒其他機(jī)器人在其他情況下的經(jīng)驗(yàn)。
創(chuàng)造一個(gè)會(huì)推理的機(jī)器人
復(fù)雜的語(yǔ)義推理很難單獨(dú)從機(jī)器人數(shù)據(jù)中學(xué)習(xí)。雖然機(jī)器人數(shù)據(jù)可以提供一系列物理能力,但像“把蘋果移到罐頭和橙子之間”這類更復(fù)雜的任務(wù),往往需要理解圖像中物體間的語(yǔ)義關(guān)系、基本常識(shí),以及和機(jī)器人物理能力沒(méi)有直接關(guān)系的其他符號(hào)知識(shí)。
因此,研究人員在RT-X項(xiàng)目的機(jī)器人數(shù)據(jù)中加入了一個(gè)龐大數(shù)據(jù)源:互聯(lián)網(wǎng)規(guī)模的圖像和文本數(shù)據(jù)。他們使用現(xiàn)有的視覺語(yǔ)言模型,這個(gè)模型類似于ChatGPT或Bard等公眾可用的模型,已精通需理解自然語(yǔ)言和圖像之間聯(lián)系的任務(wù)。結(jié)果發(fā)現(xiàn),只要訓(xùn)練這個(gè)模型,讓其對(duì)機(jī)器人指令(例如把香蕉放在盤子上)做出反應(yīng),就可以適應(yīng)機(jī)器人控制。
RT-X模型使用執(zhí)行不同任務(wù)的特定機(jī)械臂的圖像或文本描述,輸出一系列離散動(dòng)作,使任何機(jī)械臂都能完成這些任務(wù)。從世界各地的機(jī)器人實(shí)驗(yàn)室收集各種機(jī)器人完成各種任務(wù)的數(shù)據(jù),構(gòu)建開源數(shù)據(jù)集,可以讓機(jī)器人變得通用
為了評(píng)估互聯(lián)網(wǎng)數(shù)據(jù)和多機(jī)器人數(shù)據(jù)的結(jié)合,研究人員用谷歌的移動(dòng)機(jī)械臂對(duì)RT-X模型進(jìn)行了嚴(yán)格泛化基準(zhǔn)測(cè)試,機(jī)器人必須識(shí)別物體并成功地操縱物體,它還必須通過(guò)邏輯推理來(lái)響應(yīng)復(fù)雜的文本命令,而運(yùn)用邏輯推理就需要整合文本和圖像信息,這是人類所擅長(zhǎng)的本領(lǐng)。
研究人員要求機(jī)器人執(zhí)行訓(xùn)練數(shù)據(jù)中沒(méi)有的任務(wù),雖然這些任務(wù)對(duì)人類來(lái)說(shuō)很簡(jiǎn)單,但對(duì)通用機(jī)器人而言是挑戰(zhàn)。他們讓谷歌機(jī)器人把蘋果移到罐頭和橙子之間,這涉及空間關(guān)系推理。在另一項(xiàng)任務(wù)中,谷歌機(jī)器人必須解決基本數(shù)學(xué)問(wèn)題。這些挑戰(zhàn)是為了測(cè)試機(jī)器人推理和得出結(jié)論的能力,其中,空間推理等推理能力來(lái)自視覺語(yǔ)言模型的網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練,基于機(jī)器人行為的推理輸出能力來(lái)自RT-X的數(shù)據(jù)訓(xùn)練。
結(jié)果顯示,包含多機(jī)器人RT-X數(shù)據(jù)的谷歌機(jī)器人,其任務(wù)泛化能力提高了三倍。這一結(jié)果表明,多機(jī)器人RT-X數(shù)據(jù)不僅有助于機(jī)器人獲得各種物理技能,還有助于更好地將這些技能與視覺語(yǔ)言模型中的語(yǔ)義和符號(hào)知識(shí)聯(lián)系起來(lái)。萊文認(rèn)為,這些聯(lián)系賦予了機(jī)器人常識(shí),有朝一日這或使得機(jī)器人能夠理解復(fù)雜而微妙的用戶命令含義,比如機(jī)器人能理解“給我拿早餐”的命令,同時(shí)執(zhí)行這個(gè)動(dòng)作。
模型微調(diào)或賦予機(jī)器人新技能
這些進(jìn)展還只是RT-X項(xiàng)目的第一步。“我們希望通過(guò)這第一步,一起創(chuàng)造機(jī)器人的未來(lái):通用機(jī)器人大腦可以驅(qū)動(dòng)任何機(jī)器人,從世界各地所有機(jī)器人共享的數(shù)據(jù)中受益。”萊文希望更多研究人員的數(shù)據(jù)可以貢獻(xiàn)給RT-X數(shù)據(jù)庫(kù),但RT-X項(xiàng)目不僅僅是跨實(shí)驗(yàn)室共享數(shù)據(jù),他希望RT-X發(fā)展成一個(gè)協(xié)作項(xiàng)目,以開發(fā)數(shù)據(jù)標(biāo)準(zhǔn)、可重復(fù)使用模型,以及新技術(shù)和算法。
“就像大語(yǔ)言模型已經(jīng)掌握了基于語(yǔ)言的廣泛任務(wù)一樣,未來(lái)我們可能會(huì)使用相同的大模型作為許多現(xiàn)實(shí)世界機(jī)器人任務(wù)的基礎(chǔ)。也許機(jī)器人的新技能可以通過(guò)微調(diào)甚至是預(yù)訓(xùn)練模型來(lái)實(shí)現(xiàn)。”萊文說(shuō),就像在不訓(xùn)練ChatGPT的情況下讓它講一個(gè)故事一樣,未來(lái)可以讓機(jī)器人在蛋糕上寫“生日快樂(lè)”,而不必告訴它如何使用裱花袋或手寫文本是什么樣的。當(dāng)然,還需要對(duì)這些模型進(jìn)行更多研究才能讓機(jī)器人具備這種通用能力。
萊文希望進(jìn)一步推動(dòng)單一神經(jīng)網(wǎng)絡(luò)控制多個(gè)機(jī)器人的前沿探索。這些進(jìn)步可能包括添加來(lái)自生成環(huán)境的各種模擬數(shù)據(jù)、處理具有不同數(shù)量的手臂或手指的機(jī)器人、使用不同的傳感器套件,甚至結(jié)合操作和運(yùn)動(dòng)行為。“RT-X為此類工作打開了大門,但最令人興奮的技術(shù)發(fā)展仍在前方。”
本文鏈接:一個(gè)機(jī)器人一次性向所有機(jī)器人學(xué)習(xí)?全球34個(gè)實(shí)驗(yàn)室聯(lián)合研究http://m.lensthegame.com/show-11-2016-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。