龍年第一熱詞:Sora
甲辰龍年迎新,最為吸睛的科技圈大事當屬橫空出世的文生視頻模型Sora。2月16日凌晨,OpenAI官方發布了文生視頻模型Sora。與之前市面上的同類工具相比,Sora具有完成更加復雜任務的能力,還能帶來更為生動的多視角視頻,在生成視頻的時長、流暢度和邏輯性等方面優勢顯著。
有趣的是,Sora發布后,美股知名工具軟件公司Adobe股價隨即暴跌超7%,圖片版權公司Shutterstock跌逾5%,市值一夜蒸發超7000萬美元,奈飛、迪士尼等影視公司和數據資產企業Getty Images等股價亦有不同程度的下跌。而國內A股,龍年甫一開市相關AI概念股就掀起漲停潮,不少蹭上Sora概念的小市值公司更是連續斬獲漲停。不同市場不同企業股價走勢的強烈反差,提醒著大家,對Sora應該有更多的“冷思考”:和過去兩年間同樣掀起大量討論的ChatGPT、Midjourney等工具相比,Sora有何過人之處?又是否真能如一些人所鼓吹的那樣,“將掀起另一次工業革命”?
1
都是“文轉片”,Sora牛在哪?
根據OpenAI發布的示范,只需要給Sora一段二三十字的指令,它就可以生成一段長達一分鐘的影片,可以是寫實影片,可以是動畫,也可以是歷史片﹑黑白片﹑3D科幻片。
看到這里,一些“AI神教”信奉者已經迫不及待預言,在不久將來,所有人都可以隨時隨地生成影片,即是說拍攝﹑繪畫﹑剪片制片的門檻將不再存在。
可是,通過“文字指令”來生成“影片”這件事情,Sora并非全球首家,過去Google、Meta或是創業公司Runway ML都有展示出類似的技術。
不過,在看到公布的幾十條示范視頻的逼真性和清晰度后,很多人還是被震撼到了。比如那條雪地上撒歡的大狗,毛發絲絲閃亮發光,很具有“大片質感”。這一效果放在電影工業中,像科幻大片《阿凡達》中人物飄逸的長發,那是一大批人一筆筆畫了好幾個月后,在電腦幫助下制作出來的,Sora卻是自動即時生成。再加上“60秒超長長度”“單視頻多角度鏡頭”“充滿情感的角色”“高度擬真的細節”和“世界模型”等等優勢,對pika、Runway、Stable Video等同行競品堪稱“降維打擊”。
有網友在評論時稱,“gg Pixar(皮克斯動畫制作公司完蛋了)”。連和OpenAI向來不對付的馬斯克,在看到Sora作品后,也寫下評論謂“gg humans(人類完蛋了)”。
2
技術上有何過人之處?
在技術層面,據記者了解,Sora的核心技術主要包括Diffusion Transformer架構和時空patches。
OpenAI的技術報告顯示,基于Diffusion Transformer,從一開始看似靜態噪聲影片出發,經過多步驟的噪聲去除過程逐漸生成影片。而時空patches將不同類型的視覺數據轉化為統一的表現形式。同時,該模型對語言有著深刻的理解,能夠準確地演繹提示內容,并生成情感表達充分且引人注目的角色。
這可能不太好理解,源碼資本在一份報告中通過三個步驟的一系列比喻進行了解釋,讓大眾讀者更容易明白一些:
第一步,想象一下,你正在對一間雜亂無章的房間打掃整理,方法是用盡可能少的盒子裝下所有東西,同時確保日后能快速找到所需之物。視頻壓縮網絡正是遵循這一原理。它將一段視頻的內容“打掃和組織”成一個更加緊湊、高效的形式(即降維)。
接下來,你會為每個盒子編寫一張清單。這樣,當你需要找回某個物品時,只需查看對應的清單,就能快速定位它在哪個盒子里。在Sora中,類似的“清單”就是空間時間潛在補丁。通過視頻壓縮網絡處理后,Sora會將視頻分解成一個個小塊,這些小塊含有視頻中一小部分的空間和時間信息,就好像是對視頻內容的詳細“清單”。這讓Sora在之后的步驟中能針對性地處理視頻的每一部分。
最后,想象你和朋友一起玩拼圖游戲。這個游戲的目標是根據一段故事來拼出一幅圖,每人負責一部分。最終,大家將各自的拼圖部分合并,形成一幅完整的圖畫。在Sora的視頻生成過程中,Transformer模型正扮演著類似的角色。它接收空間時間潛在補丁(即視頻內容的“拼圖片”)和文本提示(即“故事”),然后決定如何將這些片段轉換或組合以生成最終的視頻,從而講述文本提示中的故事。
通過這三個關鍵步驟的協同工作,Sora能夠將文本提示轉化為具有豐富細節和動態效果的視頻內容。不僅如此,這一過程還極大地提升了視頻內容生成的靈活性和創造力,使Sora成為一個強大的視頻創作工具。
浙商證券電子首席分析師蔣高振概括說:“Sora主要有四方面的突破:其一,視頻生成視頻。Sora可以依據原視頻,用自然語言對其進行修改,以達到更換環境、天氣等元素的目的。其二,向過去拓展視頻。過去類似產品主要是向未來拓展,而Sora可以向過去拓展,同時保持結尾的一致性。其三,視頻拼接。Sora可將不同種類的視頻拼接至同一視頻的統一場景下。其四,具有交互反饋。”他認為,此次Sora在時長和效果上,均有了更加接近人類拍攝視頻的效果。
3
Sora是否被“神化”了?
如果只是“文生片”的超能力,Sora不太可能成為今天這么火爆的話題,關鍵點是OpenAI的技術報告最后提到,當模型在大規模數據上訓練后,模型表現出許多有趣的新興能力,這些能力使得Sora能夠模擬現實世界中人類、動物和環境的某些方面。
也就是說,模型訓練前并沒有給它輸入一些物理規則,然而模型在接受大規模數據的訓練后,自然而然學習到了這些物理規律。
例如,隨著相機的移動和旋轉,人物和場景元素在三維空間中保持一致地移動。視頻主體在暫時地被遮擋或者離開畫面后,后續也能繼續存在,并且也能保證主體在多個鏡頭畫面中,保持外形的一致性。
Sora有時還能夠模擬以簡單方式影響世界狀態的行為。例如,畫家可以在畫布上留下隨時間持續的新筆觸,或者一個人吃漢堡時能留下咬痕。
技術報告最后的結論是,Sora的這些示例,無論是模擬真實場景還是虛擬場景,大部分都體現了物理規律。這表明基于Transformer的Diffusion模型,是發展世界模型的一條可行道路。
這一結論直接被英偉達AI研究院首席研究科學家Jim Fan解讀成,“這是一個數據驅動的物理引擎。它是對許多世界的模擬,無論是真實的還是幻想的。”他認為,Sora是一個可學習的模擬器,或“世界模型”。
正是為此,國內外學術界、產業界展開了激烈爭論。
激進者如360集團董事長周鴻祎認為,Sora展現的不僅僅是一個視頻制作的能力,它展現的是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。“一旦AI接上攝像頭,把所有的電影和視頻都看一遍,對世界的理解將遠遠超過文字學習,這就離AGI(通用人工智能)真的不遠了,不是10年20年的問題,可能一兩年就可以實現。”
Meta首席科學家楊立昆則質疑說:“僅憑能夠根據提示生成逼真的視頻,并不能說明系統真正理解了物理世界。生成過程與基于世界模型的因果預測不同,生成式模型只需要從可能性空間中找到一個合理的樣本即可,而無需理解和模擬真實世界的因果關系。”
獵豹移動董事長傅盛表示,Sora這次的重大突破并不代表技術上的重大升級,更可以理解成是一個暴力美學。文生圖和文生視頻引擎,目前對世界的理解還停留在初級水平,可能只是通過生成符合人類感官的圖像來表現,而不是真正的理解。
4
概念股該狂飆還是該瑟瑟發抖?
撇開Sora是否真能“理解世界”不說,OpenAI此次發布的Sora只能算是個預覽版,目前僅向部分設計師和電影制作人等特定人群提供訪問權限,以獲取改進反饋。公司不僅未公布訓練Sora模型的數據等基礎細節,也沒確定何時面向公眾發布。
即使如此,美國一些分析人士認為,AI在視頻生成領域的巨大發展前景為塑造影視產業新業態打開大門的同時,恐將顛覆現存影視產業。相關分析使得主營圖像處理、視頻制作軟件的Adobe公司股價應聲下跌超過7%。
在中國,Sora發布適逢龍年春節長假。假期一過,各大券商機構就迫不及待釋放研報吹捧Sora,并順勢推薦相關概念股。多家機構認為,考慮到視頻數據量相對文本和圖片有幾何級的提升,AI視頻生成對訓練和推理的算力需求將大幅提升,算力廠商有望持續受益,包括高新發展、恒為科技、中科曙光、工業富、寒武紀、海光信息、利通電子收漲,浪潮信息、景嘉微、龍芯中科、紫光股份等股價均一度大漲。
這些機構還指,若Sora成為視頻創作領域的超級應用,將帶來巨大的網絡設備升級需求,從而打開龍頭廠商估值空間。光模塊概念股的中際旭創、天孚通信、新易盛、源杰科技、聯特科技等全數收獲漲停。
從產業角度來看,經濟學家任澤平在《Sora橫空出世,會顛覆哪些行業?》一文中分析指出,以后“扔一部小說、出一部大片”不是不可能了,在當下的短視頻時代,Sora“一個人”就全包了短視頻的攝影、導演、剪輯等任務。未來,Sora生成的各種不同用途的視頻,對于現在的短視頻、直播、影視、動漫、廣告等行業都會產生深遠影響。
比如,在短視頻創作領域,Sora有望極大降低短劇制作的綜合成本,解決“重制作而輕創作”的共性問題;廣告制作公司通過Sora 模型生成符合品牌的廣告視頻,顯著減少拍攝和后期制作成本;游戲與動畫公司使用Sora直接生成游戲場景和角色動畫,減少了3D模型和動畫制作成本。
對此,巨人網絡在回應記者時表示,短期來看,作為生產力工具,Sora有望極大提高游戲行業內容創作效率;長期來看,Sora涌現出對3D模型的理解以及強大的物理世界仿真能力,會對游戲底層工具層面產生深遠影響。公司目前已將自研AI視頻風格遷移技術廣泛應用于研運環節,賦能內容創意表達。
微盟集團相關技術負責人表示,Sora將重塑短視頻營銷產業。可以預見,隨著Sora等AI大模型加持下視頻生成能力的“智能化”發展,視頻拍攝于制作尤其是線下部分場景可由技術生成或擴展,從而大大縮減線下實體場地和維護團隊的支出成本,同時極大地釋放視頻類廣告素材的制作生成效率,由此帶來的“降本和提效”,有望推動AI視頻生成技術快速進入商業化應用階段。
近年來借微短劇走紅海內外的中文在線則在投資者關系活動中表示,該公司擁有IP,未來或可運用Sora或類似應用生成短劇/短視頻,通過其現有成熟短劇或短視頻營銷等商業路徑進行規模化、商業化的變現。
5
還有什么在限制著Sora?
Sora首次發布展示雖然堪稱驚艷,但其生成能力并不完美也是顯而易見的。
根據已披露的影片顯示,不少素材仍屬“一眼假”,不符合物理學規律等AI生成的Bug不少。例如,在呈現“紅酒杯在桌上摔碎”的鏡頭中,杯子摔碎前紅酒已灑滿桌子,違背了物理邏輯;在一個女人走在街上的片段中,背景中有許多模糊的人,但如果再仔細觀察,他們看起來就像是四處漂浮的僵尸,在大約28秒的時候,這個女人的左腳邁出了兩步,這在生物學上是不可能的;另一段視頻展示的螞蟻只有四條腿,而大多數正常螞蟻都有六條腿。
同時,與文本對話和圖片生成相比,訓練成本高昂、高質量數據集的缺乏、影片描述的模糊性和復雜度以及知識產權合規或輸出內容不侵權等,都將是Sora需要跨越的門檻及挑戰。
實際上,任何人都可以輕松地將文本轉換為視頻,這一想法既令人興奮,也讓人感到害怕。
在美國,隨著名人、政客等人物的深度造假視頻在網上變得越來越普遍,相應的倫理和安全問題也讓人心驚,尤其是在總統選舉年和緊張的政治局勢背景下,這些工具很可能會植入社會偏見和仇恨內容。可能AI制作的視頻仍會有一些不一致的地方,但普通人可能根本不會注意到這些細節。
美國聯邦貿易委員會2月15日提出了禁止使用AI工具冒充個人的規則。FTC表示,它正在提議修改一項已經禁止冒充企業或政府機構的規則,將保護范圍擴大到所有個人。
國內也有不少法律界人士表態稱,Sora的開發和使用過程中或許會侵犯他人著作權、隱私權,違反數據保護相關法律,此外或許還會出現人權與倫理問題。
就以近日網友們津津樂道的“給Sora看一遍金庸的作品,100集的《射雕英雄傳》就出來了”為例,據知名IT專業律師趙占領分析指出,如果視頻是根據小說內容生成一個相應的視頻,它實際上是構成侵權的,“這種實際上和小說改編成影視劇是類似的性質,侵犯的是改編權”。
除此之外,由于目前OpenAI并沒有公布Sora具體的算力、能源消耗需求以及參數量,初步判斷,它需要的數據量、算力以及能源消耗將是巨大成本,而這與其下個階段的開發和推廣必然存在矛盾。有消息指,在Sora發布前夕,OpenAI首席執行官Sam Altman正尋求最高7萬億美元募資,以重塑全球AI芯片的基礎設施。
記者觀察
它為什么沒有誕生在中國?
和一年前ChatGPT成為節后火爆話題相似,今年Sora的走紅,又帶起了一波話題:為什么Sora沒有誕生在中國呢?
一度被誤傳為Sora發明者之一的畢業于上海交大、現任紐約大學計算機科學助理教授謝賽寧在澄清傳聞時談到,“對于Sora這樣的復雜系統,人才第一,數據第二,算力第三,其他都沒有什么是不可替代的。”
至于“在問Sora為什么沒出現在中國的同時,可能也得問問假設真的出現了(可能很快),我們有沒有準備好?如何能保證知識和創意的通暢準確傳播,讓每個人擁有講述和傳播自己故事的‘超能力’,做到某種意義上的信息平權。”
上海市數據科學重點實驗室主任肖仰華在回應相關話題時表示,大模型需要的無外乎就是人才、數據、算力。我們國家最不缺的就是工程人才,我也不認為數據是我們的根本短板,可能現在最直接的因素還是算力上面,Sora說白了也是一個大力出奇跡的活,但我們現在算力跟不上,是一個明顯的短板。“另外,我認為可能還很缺的因素,就是所謂的信心。我們中國人還是強調經濟務實,都喜歡跟哪個理念一結合就能夠去快速變現。這本質上還是一個信仰和信心的問題。”
■采寫:新快報記者 鄭志輝
■圖片:VCG
本文鏈接:五大問題讓你明白,我們談論Sora時是在談論什么http://m.lensthegame.com/show-1-5985-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 安排專車接送學生,便橋預計7-10日建成