·Sora可根據文本指令生成60秒視頻,可生成具有多個角色、特定類型運動及精確主題和背景細節的復雜場景,并在單個生成視頻中創建多個鏡頭,準確保留角色和視覺風格。
·OpenAI正在教AI理解和模擬運動中的物理世界,目標是訓練模型來“幫助人們解決需要現實世界互動的問題”。不過,Sora在提示空間細節方面會混淆左右,也無法理解因果關系的具體實例。
Sora生成的視頻:幾只巨大的猛犸象穿過一片白雪覆蓋的草地,長毛在風中輕輕飄動,遠處是白雪覆蓋的樹木和大山。
開發出熱門聊天機器人ChatGPT后,OpenAI繼續在生成式人工智能上玩出新花樣。2月16日,OpenAI推出新的AI大模型Sora,該文生視頻大模型可通過快速文本提示創建“逼真”和“富有想象力”的60秒視頻。
OpenAI表示,Sora能夠根據文本指令生成長達60秒的視頻,同時保持視覺質量并遵守用戶提示。Sora可生成具有多個角色、特定類型運動以及精確主題和背景細節的復雜場景。該模型對語言有深刻理解,能夠準確領會提示,生成令人信服的角色。Sora還可以在單個生成視頻中創建多個鏡頭,準確保留角色和視覺風格。
Sora生成的視頻:一只貓叫醒了正在睡覺的主人。
“這個模型不僅能理解用戶在提示中要求什么,還能理解這些東西在現實世界中是如何存在的。”OpenAI表示,正在教人工智能理解和模擬運動中的物理世界,目標是訓練模型來“幫助人們解決需要現實世界互動的問題”。
除了能夠僅從文本指令生成視頻外,該模型還能夠利用現有的靜止圖像從中生成視頻,精確地將圖像內容動畫化,也可以利用現有視頻進行擴展或填充缺失的幀。
Sora有時會生成不合情理的動作,譬如在跑步機上倒著跑步。
不過,Sora仍在開發中,存在明顯“弱點”,特別是在提示空間細節方面會混淆左右,也無法理解因果關系的具體實例,比如制作了一個視頻,視頻中有人咬了一口餅干,但之后餅干上沒有咬痕。
Sora生成的視頻:五只小狼在一條礫石路上嬉戲追逐,周圍長滿了草。Sora的缺點是動物或人會憑空出現,特別是在包含許多實體的場景中。
Sora生成的視頻中,動物或人會憑空出現,特別是在包含許多實體的場景中。此外,Sora難以精確描述隨時間推移發生的事件,例如跟蹤攝像機的特定軌跡。
Sora生成的視頻:一把普通的塑料椅子在沙漠中被發現,人們小心翼翼地挖掘并撣去沙子。在這個例子中,Sora沒有將椅子建模為一個剛性物體,導致不準確的物理交互。
對于模型安全性的考量,OpenAI表示,計劃與一個專家團隊合作測試最新模型,密切關注錯誤信息、仇恨內容和偏見等。OpenAI還表示正在開發幫助檢測誤導性信息的工具,比如檢測分類器可以判斷視頻是何時由Sora生成的。其文本分類器可檢查并拒絕違反使用政策的文本輸入提示,例如極端暴力、性內容、仇恨圖像、名人肖像等。“我們還開發了魯棒性的圖像分類器,用于審查每個生成視頻的幀,以幫助確保它在顯示給用戶之前符合我們的使用政策。”
OpenAI表示,Sora將首先提供給網絡安全教授,以評估產品的危害或風險。一些視覺藝術家、設計師和電影制作人也能獲得Sora的訪問權限,以此收集關于創意專業人士如何使用Sora的反饋。
Sora生成的視頻:在“賽博朋克”背景下,一個機器人的生活故事。
市場研究公司ABI research高級分析師里斯·海登(Reece Hayden)表示,盡管多模態大模型并不新鮮,而且文生視頻的模型已經存在,但OpenAI聲稱Sora具有的長度和準確性使其與眾不同。海登認為,這類人工智能模型可能會對數字娛樂市場產生重大影響,新的個性化內容將在各個渠道傳播,“一個明顯的用例是電視,創造簡短的場景來支持敘事。”
本文鏈接:OpenAI推新款大模型Sora,可根據文本生成60秒視頻http://m.lensthegame.com/show-11-3008-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇: 一場學術報告,成了他權威人設崩塌的開局