聲明:本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元,授權轉載發布。
【新智元導讀】國產Sora來了!這家公司的AI視頻已經實現了15秒4K60幀的超逼真效果。而且,它和小米、快手都已展開戰略合作,瞄準了500億美元的短劇出海市場。
OpenAI的Sora,現在是徹底把AI視頻的場子給熱起來了。
不僅Stable Video立馬上線了公測,而且Pika也隨即拿出了給視頻對口型的Lip Sync,以及可以根據內容自動生成聲音的音效生成功能。
LTX Studio則另辟蹊徑,上線了電影制作平臺,把視頻生成、編輯、剪輯、旁白一條龍全包了。
而國內的腳步,也正緊緊跟隨。
就在3月5日的超訊通信X七火山大會上,一段高清4K文生視頻,讓在場觀眾驚呼連連。
而作為背后工具的Etna,不僅在視頻長度上達到了破紀錄的15秒,并且還實現了60FPS的超高幀率,大大提高了視頻的流暢性和觀看體驗。
相比之下,其他的AI視頻最高也只有每秒30幀。
無論是水母、鯨魚、章魚、螃蟹、斑馬、火烈鳥,還是沖浪者、劃潛艇的人、滑雪的人,都做到了細節高清、動作連貫,甚至達到了3840x2160的超高分辨率。
這只美麗優雅的維多利亞冠鴿,頭上羽冠的羽毛花邊精致可見,眼睛栩栩如生,羽毛的質地和顏色都很細膩地還原出來了
夜色中的女郎,眼神魅惑地看向鏡頭
Etna的問世,意味著現有的國產文生視頻技術的一次重大突破。現有的短視頻創作模式,很有可能會被徹底顛覆!
一大波4K AI視頻來了!
Etna的這波演示,讓我們可以充分放飛想象力,把腦海里最奇特的想象給還原出來。
維多利亞冠鴿對著鏡頭展示自己的羽毛,頭頂的壯麗彩冠blingbling地閃光。
一個酷酷的女生,戴著墨鏡站在街頭,帶著墨鏡。
穿著比基尼的金色長發美女,站在海浪中。
黑夜的叢林中,一位女郎穿過,只留下神秘的背影。
兩艘海盜船在一杯咖啡中航行時,忽然狹路相逢。
陽光透過熱帶雨林的斑駁樹影灑下來。
一個精靈在魔幻森林中,周邊環繞著發光的植物。
兩只哈士奇開心地戴上泳鏡,潛到海底打卡,它們開心地沖著鏡頭微笑合影,右邊那位眼神還透著一股得意。
而小熊貓們居然出現在了魚缸上面,整個畫面構成一幅令人眼前一亮的的生態奇景。
如何搶先復現Sora?
從上圖可以看出,相較于市場上的現有模型,Etna在時長、高清晰度、豐富生動細節和強語義理解上,都保持著較大優勢。
為什么七火山能成為國內率先復現出Sora的公司?
Sora的關鍵創新,是一個可以靈活地處理不同維度數據的Diffusion Transformer:
1. 時空壓縮器會把原始視頻轉映射到潛空間中。
2. 視覺Transformer(ViT)模型會對已經被分詞的潛表征進行處理,并輸出去除噪聲后的潛表征。
3. 一個與CLIP模型類似的系統根據用戶的指令(已經通過大語言模型進行了增強)和潛視覺提示,引導擴散模型生成具有特定風格或主題的視頻。經過多次去噪處理之后,會得到生成視頻的潛表征,然后通過相應的解碼器映射回像素空間。
在相關領域技術積累的基礎上,Etna模型迅速抓住了Sora的精髓,另外還引入了幾項創新。
技術架構創新
由于視頻的時空特性,在這一領域應用DiT所面臨的主要挑戰是:
(1)如何從空間和時間上將視頻壓縮到潛空間,以實現高效去噪;
(二)如何將壓縮潛空間轉換為patches,并將其輸入到Transformer中;
(三)如何處理長距離的時空依賴性,并確保內容的一致性。
為此,Etna模型在主干網絡上Diffusion架構,同時,在一個更大的數據集上實驗和適配與Sora相似的Diffusion+Transform架構。
因為融合了Diffusion模型和Transformer模型的優勢,通過這種結合,Etna就形成了一種高效且先進的新型模型架構。
這不僅提升了模型的生成效率,還保證了生成內容的高質量和高一致性。
時空理解能力
其次,Etna模型在語言模型和圖像模型中插入時空卷積和注意力層,能夠處理視頻數據,即考慮圖像序列中的時間連續性。
而這也就意味著,Etna擁有了一定的時空理解能力,從而能夠理解并生成具有時間維度的視頻內容。
視頻時長與幀率優化
Etna模型支持生成視頻時長達到8-15秒,且視頻流暢度極高,每秒可達60幀。
這一特性使得Etna生成的視頻不僅內容豐富,而且視覺效果流暢自然,極大提升了用戶觀看體驗。
深度語義理解能力
文本提示對于指導文本到視頻模型,制作既具有視覺沖擊力,又能精確滿足用戶創建視頻需求至關重要。
以Sora為例,提示中,包含了人物的動作、設定、角色出場,甚至是所期望的情緒,以及場景氛圍。
而這樣一個精心制作的文本提示,也確保了Sora生成的視頻與預期的視覺效果非常吻合。
無獨有偶,Etna模型背后的技術架構,也特別強調了對輸入文本的深度理解。
借鑒了Sora模型的成功經驗,Etna能夠更準確地捕捉和轉化文本信息為視頻內容,使得生成的視頻不僅忠實于原文意圖,還能豐富展現文本的細微情感和場景。
比如,開頭那只冠鴿的prompt就是:
這張維多利亞冠鴿的特寫照片展示了它引人注目的藍色羽毛和紅色胸部。它的羽冠是由精致的花邊羽毛制成的,而它的眼睛是醒目的紅色。鳥的頭微微向一側傾斜,給人一種帝王的威嚴的印象。背景是模糊的,吸引人們注意到這只鳥引人注目的外表。
可以看到,Etna生成的冠鴿不僅非常忠實于prompt,而且鳥首微頷、帝王般的威嚴感,也都還原得十分到位,表現出了細膩的控制能力。
高清晰度與豐富細節
與早期的視頻生成模型相比,Etna在視頻清晰度和圖像細節方面取得了顯著進步。
這意味著Etna能夠產生高質量的視頻內容,每個場景的細節都被精細呈現,為觀眾帶來身臨其境的視覺享受。
高質量的訓練數據
最后,Etna模型特別注重訓練數據的質量,采用視頻而非靜態圖片作為主要訓練材料,通過高效的處理方法優化了學習效率。
傳統模型主要采用的是靜態圖像作為訓練數據,而Etna模型的方法,更符合其生成目標的本質。
通過優化的patch處理方法,Etna模型在訓練過程中能更有效地理解和模擬動態場景,從而提升最終視頻的自然度和真實感。
具體來說,Etna模型在一個大型視頻數據集上進行了充分訓練,過程采用了先進的深度學習技術策略,包括LDS大規模訓練、復雜HPO超參數優化和DPO微調,確保了模型的強大性能和生成能力。
改造短視頻全產業鏈
要說2024年最火的是什么?短劇無疑是一個高贊答案。
對此,手握多年技術積累的七火山,也有了全鏈路的布局。
現在大家已經切實地感受到,AI多模態大有可為,而七火山已成為頭部平臺的AI內容戰略合作伙伴。
它的產品形態兼具toB和toC模式,整合了AI系統能力,全面進軍AI短劇制作領域。
七火山的AI多模態布局,除了有Etna之外,還包括Lava、miniTV和Bromo。
其中,Lava是一個短劇AI譯制系統,可以完成角色換臉、對白配音、字幕翻譯。
miniTV是一個AI短劇出海分發平臺。
它聚合了AI短劇內容,與平臺共同探索內容出海新模式。
Bromo是一個圖片超分工具。它的圖生圖可達最高10K的超高分辨率,滿足商業海報的水準。
AI視頻,將顛覆整個行業
目前,七火山已經獲得了來自上市公司超訊通信的戰略投資,后者由此成為持股30%的單一大股東。
從去年初開始,超訊通信就開始尋找AIGC垂類新銳企業進行布局,在跟一系列AI多模態、AI應用落地公司接觸后,確定了投資七火山。因此,七火山在算力上也能得到充分支持。
短劇爆火海內外的這一年,七火山也獲得了幾家大廠的青睞。
首先,七火山已經與小米就AI視頻達成合作,發揮自己在短視頻創作、短劇出海本地化、劇本創作、視頻優化等方面的豐富經驗優勢。
此外,七火山和快手海外SnackVideo也有合作,將通過前沿AI技術,實現內容本地化,為海外用戶帶來各種琳瑯滿目的短劇。
隨著TikTok、Instagram Reels和Snapchat等平臺的興起,短視頻近年來人氣迅速飆升,成為當今的數字生態系統中最受歡迎、最重要的內容之一。
無論是在快節奏的現代生活中,輕松吸引人們注意力的優勢,還是病毒式傳播的可能性,都讓它的影響日漸擴大。
許多業內人士公認,短視頻就是在線內容的未來。其中短劇這一形態,更是創造了一個又一個爆款奇跡,今年的市場規模將超過500億。
而在去年,中國的出海短劇就已經在海外殺瘋了,成為掘金藍海新賽道。根據國海證券的調查,短劇出海的長期空間可達360億美元。
這么看,七火山妥妥是潛力股了,前景無限。
參考資料:
https://arxiv.org/abs/2402.17177
https://arxiv.org/abs/2212.09748
https://etna.7volcanoes.com/
本文鏈接:國產Sora來了,4K 60幀15秒視頻刷新紀錄!500億美元短劇出海市場被撬動_國產speakhttp://m.lensthegame.com/show-3-12699-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 2023 全球 PC 工作站出貨量跌幅 8.8%,IDC 預估 2024 復蘇增長 5.2%_全球pc市場份額