日前,谷歌DeepMind已將其最先進的大型語言模型(LLM)Gemini應(yīng)用于機器人。該公司表示,借助該模型,機器人無需觀察其他機器人的演示動作也可以完成某些任務(wù),例如將迷你籃球“扣”入桌面籃筐。
DeepMind是多家嘗試利用聊天機器人技術(shù)開發(fā)通用機器人的企業(yè)之一。然而,此類模型容易生成錯誤和有害內(nèi)容,因此該技術(shù)路徑也伴隨著安全隱患。
研究團隊希望開發(fā)出能夠直觀操作、無需人類監(jiān)督或預(yù)設(shè)程序即可完成多種物理任務(wù)的機器。谷歌DeepMind機器人團隊負責(zé)人Carolina Parada指出,通過連接Gemini模型,開發(fā)人員可以提升機器人的能力,使其“理解自然語言,并以前所未有的精細程度認知物理世界”。
這款名為Gemini Robotics的模型于3月12日發(fā)布。專注于構(gòu)建人工智能(AI)機器人開發(fā)數(shù)據(jù)集的美國AI公司CollectedAI聯(lián)合創(chuàng)始人、AI研究員Alexander Khazatsky評價稱,這是實現(xiàn)通用機器人目標“雖小但切實的一步”。
谷歌DeepMind團隊以其最先進的視覺與語言模型Gemini 2.0為基礎(chǔ)展開研究。該模型通過分析海量數(shù)據(jù)中的模式進行訓(xùn)練。
團隊開發(fā)了Gemini的專用版本,專注于提升涉及三維物理和空間推理的任務(wù)能力,例如預(yù)測物體運動軌跡,或識別不同角度拍攝圖像中物體的同一部位。
此外,他們利用數(shù)千小時真人遠程操作機器人演示的數(shù)據(jù)對模型進行強化訓(xùn)練。這使得機器人“大腦”能夠執(zhí)行實際動作,其原理類似于LLM通過已學(xué)關(guān)聯(lián)生成句子的下一詞語。
團隊在類人機器人和機械臂上對Gemini Robotics進行了測試,涵蓋訓(xùn)練任務(wù)及未接觸過的新任務(wù)。據(jù)稱,無論面對細節(jié)調(diào)整的熟悉任務(wù)還是全新任務(wù),搭載該模型的機器人表現(xiàn)均優(yōu)于當(dāng)前最先進的競爭對手。
在需要精細操作的任務(wù)中,如折紙或拉上背包拉鏈,機器人手部僅觀察不到100次演示后,成功率便超過70%。而使用其他對比模型的機器幾乎全部失敗。
Khazatsky認為,谷歌團隊在將常識性知識植入機器人“大腦”方面成果顯著,但他指出,真正的飛躍需通過從“混亂的真實世界”而非實驗室環(huán)境采集的機器人數(shù)據(jù)中學(xué)習(xí)。
應(yīng)用此類模型時,安全性將成為重大挑戰(zhàn)。谷歌DeepMind紐約分部機器人及AI研究員Vikas Sindhwani表示:“初期,機器人將保持與人類的安全距離。未來我們將逐步實現(xiàn)更多互動和協(xié)作任務(wù)。”
本文鏈接:AI機器人會扣籃http://m.lensthegame.com/show-11-18685-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。