21世紀經(jīng)濟報道記者孔海麗 北京報道
AIGC的3D賽道突然熱鬧了起來。
12月5日,谷歌DeepMind放出了新一代世界模型Genie 2,可以“一張圖生成1分鐘游戲3D世界”,網(wǎng)友驚呼“黑客帝國來了”。
就在兩天之前,“AI教母”李飛飛的World Labs剛官宣了“空間智能”模型,支持“一張圖生成一個3D世界”。
這是繼Sora之后,對世界模型的又一次討論熱潮。從文本到圖像,再到視頻和可交互的3D世界,AIGC總體上有了重大飛躍。
對于產(chǎn)業(yè)端來說,創(chuàng)造性設(shè)計類工作和交互式體驗工作流,都迎來了強大助力。世界模型可以為Agent訓練、具身智能訓練、復雜的動畫制作、游戲制作、物理學建模等領(lǐng)域,提供無限多樣、可操控的3D環(huán)境。
也有產(chǎn)業(yè)人士表示,世界模型的進展,意味著終極AGI(通用人工智能)又近了一步。
谷歌拓展通向AGI的廣度
Genie 2是谷歌第二代世界模型,給定一張圖像,就能生成一個通過鍵盤和鼠標輸入的、可操作的3D環(huán)境。
圖像中的角色,可以被鍵盤識別并響應智能操作。
同一個起始幀,可以生成不同的運動軌跡。
Genie 2前后記憶具有一致性,周圍場景即便不可見時,也不會發(fā)生扭曲。
可貴的是,Genie 2可以根據(jù)畫面實時生成新場景,最長可達一分鐘。
這樣的界面,和游戲有共通之處。
“游戲在人工智能研究領(lǐng)域發(fā)揮著關(guān)鍵作用。它們引人入勝的畫質(zhì)、獨特的挑戰(zhàn)組合和可衡量的進步,成為安全測試和推進AI功能的理想環(huán)境。”谷歌方面坦陳:“事實上,游戲?qū)雀鐳eepMind一直很重要,也是谷歌訓練Agent的重要途徑。”
但是對具身智能的訓練,行業(yè)是遇到了瓶頸的。
足夠豐富和多樣化的訓練環(huán)境,才能促進具身智能的實際進步。21世紀經(jīng)濟報道記者從人形機器人產(chǎn)業(yè)人士處獲知,當前,泛化能力是人形機器人的一大痛點。
Genie 2有望幫助具身智能解決訓練瓶頸。
交互功能上,Genie 2可以對交互關(guān)系進行建模,例如爆破氣球、打開門和射擊炸藥桶等。
這使得制作多樣化交互場景簡單了許多。利用Genie 2快速構(gòu)建的各種交互式體驗原型,研究人員能夠快速用新環(huán)境來訓練和測試具身智能AI。
例如,使用Imagen 3生成的不同圖像提示Genie 2對紙飛機、龍、鷹或降落傘飛行之間的區(qū)別進行建模,并測試Genie控制不同對象時的能力。
也就是說,AI智能體可以在世界模型里,獲得近乎無限的訓練場景和交互體系。
雖然這項研究還處于早期階段,但谷歌研究人員認為,Genie 2是解決安全訓練具身智能結(jié)構(gòu)性問題的有效路徑,解鎖具身智能的下一波能力,也能夠?qū)崿F(xiàn)邁向AGI所需的廣度和通用性。
李飛飛兌現(xiàn)空間智能設(shè)想
World Labs是著名AI學者、華裔科學家李飛飛的第一個創(chuàng)業(yè)項目,成立于2024年1月,公司創(chuàng)立半年時,估值已超10億美元。
這是一家空間智能公司,致力于構(gòu)建能夠感知、生成并與3D世界互動的大型世界模型,計劃為用戶生成可操控其中變量的虛擬3D空間,并允許人們“創(chuàng)建自己的3D世界”。World Labs指出,其軟件將對包括藝術(shù)家、設(shè)計師、開發(fā)人員和工程師在內(nèi)的各類從業(yè)者有所幫助。
12月3日,World Labs交出了1.0版本作業(yè)。
由單張圖像可以生成3D世界,用戶可以實質(zhì)意義上“走進”任何圖像,并在3D中探索。
該工具還配備了可操控的滑塊,來調(diào)節(jié)模擬景深與模擬推拉變焦,支持調(diào)整攝像機的位置和視野、更改對象顏色,創(chuàng)建聚光燈特效、自動運行的動態(tài)效果等交互方式,豐富了視覺體驗和更強的操控感。
與Genie 2一樣,World Labs的空間智能模型也可以保證3D世界的一致性,場景更加持久,一旦生成便會一直存在;用戶可以實時控制、實時移動場景,能夠仔細觀察場景中的細節(jié)。
世界模型遵循3D幾何的基本物理規(guī)則,兼具真實感和深度感,有效提升了內(nèi)容的操控性和一致性,改變了電影、游戲、模擬器以及物理世界其他數(shù)字呈現(xiàn)形式的制作方式。
英偉達高級研究科學家Jim Fan評價說:“GenAI正在創(chuàng)造越來越高維度的人類體驗快照。Stable Diffusion是2D快照;Sora是2D+時間維度的快照;而World Labs是3D、完全沉浸式的快照。”
目前,Worldlabs對公眾開放了候補名單申請,部分創(chuàng)作者已經(jīng)可以將這個AI工具整合到現(xiàn)有的工作流程中。
在影視制作領(lǐng)域,AI的3D敘事能力將大大提高內(nèi)容創(chuàng)作的效率和質(zhì)量,降低制作成本。創(chuàng)作者可以更快速地生成虛擬場景和角色,通過AI生成的3D世界來構(gòu)建更加豐富多樣的故事背景,為觀眾帶來全新的視覺體驗。
例如,在拍攝前利用Worldlabs技術(shù)生成虛擬的拍攝場景,幫助導演和攝影師更好地規(guī)劃鏡頭和場景布置,提高拍攝效率和準確性。
對于游戲行業(yè),3D生成將為游戲開發(fā)帶來更多可能性。開發(fā)者可以利用AI生成更加逼真、細膩的游戲場景和角色,提升游戲的沉浸感。
在教育領(lǐng)域,大模型生成的3D內(nèi)容可以創(chuàng)建更加生動、直觀的教學場景,增加科學、歷史等學科的體驗感。
李飛飛認為,“空間智能”是AI拼圖的關(guān)鍵一環(huán)。她今年4月份在TED演講中曾稱:“視覺變成了洞察力;洞察力變成了理解力;理解力推動了行動。所有這些都產(chǎn)生了智能。”
Genie 2和Worldlabs所代表的空間智能領(lǐng)域,是AI技術(shù)發(fā)展的一個重要新方向。它突破了傳統(tǒng)AI在二維平面上的局限,將AI的感知和理解能力拓展到了三維空間,更直觀,也更趨近于交互本質(zhì)。
本文鏈接:解鎖AI的3D敘事 李飛飛、谷歌先行一步http://m.lensthegame.com/show-2-9614-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇: 南財數(shù)據(jù)周報(25期):央地協(xié)同推進數(shù)據(jù)流通治理,跨區(qū)域合作加速