解鎖AI的3D敘事李飛飛、谷歌先行一步

2024-12-08 08:07:36 來源：

觀看：108

21世紀經(jīng)濟報道記者孔海麗北京報道

AIGC的3D賽道突然熱鬧了起來。

12月5日，谷歌DeepMind放出了新一代世界模型Genie 2，可以“一張圖生成1分鐘游戲3D世界”，網(wǎng)友驚呼“黑客帝國來了”。

就在兩天之前，“AI教母”李飛飛的World Labs剛官宣了“空間智能”模型，支持“一張圖生成一個3D世界”。

這是繼Sora之后，對世界模型的又一次討論熱潮。從文本到圖像，再到視頻和可交互的3D世界，AIGC總體上有了重大飛躍。

對于產(chǎn)業(yè)端來說，創(chuàng)造性設(shè)計類工作和交互式體驗工作流，都迎來了強大助力。世界模型可以為Agent訓練、具身智能訓練、復雜的動畫制作、游戲制作、物理學建模等領(lǐng)域，提供無限多樣、可操控的3D環(huán)境。

也有產(chǎn)業(yè)人士表示，世界模型的進展，意味著終極AGI（通用人工智能）又近了一步。

谷歌拓展通向AGI的廣度

Genie 2是谷歌第二代世界模型，給定一張圖像，就能生成一個通過鍵盤和鼠標輸入的、可操作的3D環(huán)境。

圖像中的角色，可以被鍵盤識別并響應智能操作。

同一個起始幀，可以生成不同的運動軌跡。

Genie 2前后記憶具有一致性，周圍場景即便不可見時，也不會發(fā)生扭曲。

可貴的是，Genie 2可以根據(jù)畫面實時生成新場景，最長可達一分鐘。

這樣的界面，和游戲有共通之處。

“游戲在人工智能研究領(lǐng)域發(fā)揮著關(guān)鍵作用。它們引人入勝的畫質(zhì)、獨特的挑戰(zhàn)組合和可衡量的進步，成為安全測試和推進AI功能的理想環(huán)境。”谷歌方面坦陳：“事實上，游戲?qū)雀鐳eepMind一直很重要，也是谷歌訓練Agent的重要途徑。”

但是對具身智能的訓練，行業(yè)是遇到了瓶頸的。

足夠豐富和多樣化的訓練環(huán)境，才能促進具身智能的實際進步。21世紀經(jīng)濟報道記者從人形機器人產(chǎn)業(yè)人士處獲知，當前，泛化能力是人形機器人的一大痛點。

Genie 2有望幫助具身智能解決訓練瓶頸。

交互功能上，Genie 2可以對交互關(guān)系進行建模，例如爆破氣球、打開門和射擊炸藥桶等。

這使得制作多樣化交互場景簡單了許多。利用Genie 2快速構(gòu)建的各種交互式體驗原型，研究人員能夠快速用新環(huán)境來訓練和測試具身智能AI。

例如，使用Imagen 3生成的不同圖像提示Genie 2對紙飛機、龍、鷹或降落傘飛行之間的區(qū)別進行建模，并測試Genie控制不同對象時的能力。

也就是說，AI智能體可以在世界模型里，獲得近乎無限的訓練場景和交互體系。

雖然這項研究還處于早期階段，但谷歌研究人員認為，Genie 2是解決安全訓練具身智能結(jié)構(gòu)性問題的有效路徑，解鎖具身智能的下一波能力，也能夠?qū)崿F(xiàn)邁向AGI所需的廣度和通用性。

李飛飛兌現(xiàn)空間智能設(shè)想

World Labs是著名AI學者、華裔科學家李飛飛的第一個創(chuàng)業(yè)項目，成立于2024年1月，公司創(chuàng)立半年時，估值已超10億美元。

這是一家空間智能公司，致力于構(gòu)建能夠感知、生成并與3D世界互動的大型世界模型，計劃為用戶生成可操控其中變量的虛擬3D空間，并允許人們“創(chuàng)建自己的3D世界”。World Labs指出，其軟件將對包括藝術(shù)家、設(shè)計師、開發(fā)人員和工程師在內(nèi)的各類從業(yè)者有所幫助。

12月3日，World Labs交出了1.0版本作業(yè)。

由單張圖像可以生成3D世界，用戶可以實質(zhì)意義上“走進”任何圖像，并在3D中探索。

該工具還配備了可操控的滑塊，來調(diào)節(jié)模擬景深與模擬推拉變焦，支持調(diào)整攝像機的位置和視野、更改對象顏色，創(chuàng)建聚光燈特效、自動運行的動態(tài)效果等交互方式，豐富了視覺體驗和更強的操控感。

與Genie 2一樣，World Labs的空間智能模型也可以保證3D世界的一致性，場景更加持久，一旦生成便會一直存在；用戶可以實時控制、實時移動場景，能夠仔細觀察場景中的細節(jié)。

世界模型遵循3D幾何的基本物理規(guī)則，兼具真實感和深度感，有效提升了內(nèi)容的操控性和一致性，改變了電影、游戲、模擬器以及物理世界其他數(shù)字呈現(xiàn)形式的制作方式。

英偉達高級研究科學家Jim Fan評價說：“GenAI正在創(chuàng)造越來越高維度的人類體驗快照。Stable Diffusion是2D快照；Sora是2D+時間維度的快照；而World Labs是3D、完全沉浸式的快照。”

目前，Worldlabs對公眾開放了候補名單申請，部分創(chuàng)作者已經(jīng)可以將這個AI工具整合到現(xiàn)有的工作流程中。

在影視制作領(lǐng)域，AI的3D敘事能力將大大提高內(nèi)容創(chuàng)作的效率和質(zhì)量，降低制作成本。創(chuàng)作者可以更快速地生成虛擬場景和角色，通過AI生成的3D世界來構(gòu)建更加豐富多樣的故事背景，為觀眾帶來全新的視覺體驗。

例如，在拍攝前利用Worldlabs技術(shù)生成虛擬的拍攝場景，幫助導演和攝影師更好地規(guī)劃鏡頭和場景布置，提高拍攝效率和準確性。

對于游戲行業(yè)，3D生成將為游戲開發(fā)帶來更多可能性。開發(fā)者可以利用AI生成更加逼真、細膩的游戲場景和角色，提升游戲的沉浸感。

在教育領(lǐng)域，大模型生成的3D內(nèi)容可以創(chuàng)建更加生動、直觀的教學場景，增加科學、歷史等學科的體驗感。

李飛飛認為，“空間智能”是AI拼圖的關(guān)鍵一環(huán)。她今年4月份在TED演講中曾稱：“視覺變成了洞察力；洞察力變成了理解力；理解力推動了行動。所有這些都產(chǎn)生了智能。”

Genie 2和Worldlabs所代表的空間智能領(lǐng)域，是AI技術(shù)發(fā)展的一個重要新方向。它突破了傳統(tǒng)AI在二維平面上的局限，將AI的感知和理解能力拓展到了三維空間，更直觀，也更趨近于交互本質(zhì)。

本文鏈接：解鎖AI的3D敘事李飛飛、谷歌先行一步http://m.lensthegame.com/show-2-9614-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：南財數(shù)據(jù)周報（25期）：央地協(xié)同推進數(shù)據(jù)流通治理，跨區(qū)域合作加速

下一篇：今年，短劇要逆襲電影票房了？丨短劇帝國的微言大觀?

解鎖AI的3D敘事李飛飛、谷歌先行一步

谷歌拓展通向AGI的廣度

李飛飛兌現(xiàn)空間智能設(shè)想

熱門資訊

推薦資訊

科技最熱文章

解鎖AI的3D敘事 李飛飛、谷歌先行一步

谷歌拓展通向AGI的廣度

李飛飛兌現(xiàn)空間智能設(shè)想

熱門資訊

推薦資訊

科技最熱文章

解鎖AI的3D敘事李飛飛、谷歌先行一步