日前,谷歌DeepMind已將其最先進(jìn)的大型語言模型(LLM)Gemini應(yīng)用于機(jī)器人。該公司表示,借助該模型,機(jī)器人無需觀察其他機(jī)器人的演示動(dòng)作也可以完成某些任務(wù),例如將迷你籃球“扣”入桌面籃筐。
DeepMind是多家嘗試?yán)昧奶鞕C(jī)器人技術(shù)開發(fā)通用機(jī)器人的企業(yè)之一。然而,此類模型容易生成錯(cuò)誤和有害內(nèi)容,因此該技術(shù)路徑也伴隨著安全隱患。
研究團(tuán)隊(duì)希望開發(fā)出能夠直觀操作、無需人類監(jiān)督或預(yù)設(shè)程序即可完成多種物理任務(wù)的機(jī)器。谷歌DeepMind機(jī)器人團(tuán)隊(duì)負(fù)責(zé)人Carolina Parada指出,通過連接Gemini模型,開發(fā)人員可以提升機(jī)器人的能力,使其“理解自然語言,并以前所未有的精細(xì)程度認(rèn)知物理世界”。
這款名為Gemini Robotics的模型于3月12日發(fā)布。專注于構(gòu)建人工智能(AI)機(jī)器人開發(fā)數(shù)據(jù)集的美國AI公司CollectedAI聯(lián)合創(chuàng)始人、AI研究員Alexander Khazatsky評(píng)價(jià)稱,這是實(shí)現(xiàn)通用機(jī)器人目標(biāo)“雖小但切實(shí)的一步”。
谷歌DeepMind團(tuán)隊(duì)以其最先進(jìn)的視覺與語言模型Gemini 2.0為基礎(chǔ)展開研究。該模型通過分析海量數(shù)據(jù)中的模式進(jìn)行訓(xùn)練。
團(tuán)隊(duì)開發(fā)了Gemini的專用版本,專注于提升涉及三維物理和空間推理的任務(wù)能力,例如預(yù)測(cè)物體運(yùn)動(dòng)軌跡,或識(shí)別不同角度拍攝圖像中物體的同一部位。
此外,他們利用數(shù)千小時(shí)真人遠(yuǎn)程操作機(jī)器人演示的數(shù)據(jù)對(duì)模型進(jìn)行強(qiáng)化訓(xùn)練。這使得機(jī)器人“大腦”能夠執(zhí)行實(shí)際動(dòng)作,其原理類似于LLM通過已學(xué)關(guān)聯(lián)生成句子的下一詞語。
團(tuán)隊(duì)在類人機(jī)器人和機(jī)械臂上對(duì)Gemini Robotics進(jìn)行了測(cè)試,涵蓋訓(xùn)練任務(wù)及未接觸過的新任務(wù)。據(jù)稱,無論面對(duì)細(xì)節(jié)調(diào)整的熟悉任務(wù)還是全新任務(wù),搭載該模型的機(jī)器人表現(xiàn)均優(yōu)于當(dāng)前最先進(jìn)的競(jìng)爭(zhēng)對(duì)手。
在需要精細(xì)操作的任務(wù)中,如折紙或拉上背包拉鏈,機(jī)器人手部?jī)H觀察不到100次演示后,成功率便超過70%。而使用其他對(duì)比模型的機(jī)器幾乎全部失敗。
Khazatsky認(rèn)為,谷歌團(tuán)隊(duì)在將常識(shí)性知識(shí)植入機(jī)器人“大腦”方面成果顯著,但他指出,真正的飛躍需通過從“混亂的真實(shí)世界”而非實(shí)驗(yàn)室環(huán)境采集的機(jī)器人數(shù)據(jù)中學(xué)習(xí)。
應(yīng)用此類模型時(shí),安全性將成為重大挑戰(zhàn)。谷歌DeepMind紐約分部機(jī)器人及AI研究員Vikas Sindhwani表示:“初期,機(jī)器人將保持與人類的安全距離。未來我們將逐步實(shí)現(xiàn)更多互動(dòng)和協(xié)作任務(wù)?!?span style="display:none">l92流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM
本文鏈接:AI機(jī)器人會(huì)扣籃http://m.lensthegame.com/show-11-18685-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。