用人工智能生成視頻,是許多人樂于嘗試的應用。但AI的技術缺陷也引來很多吐槽:“上一段視頻中生成的是張三,下一段視頻就變成了另一張臉。無論怎么調整,都無法讓兩段視頻的主角變成同一人。”人物角色一致性的難題,讓AI難以制作出同一人物角色、不同故事情節的短片,大大限制了AI生成視頻的應用場景。
2025年1月,稀宇科技(MiniMax)發布的最新視頻模型化解了這一難題。用戶只需提供1張人物的正面照片,不論生成多少段風格迥異的視頻,主角都是這個人。這讓網友驚呼,一張照片就能做電影,這不是夢!
在創業過程中,MiniMax始終堅持技術驅動。動態視頻中如何保持人物面部多角度的真實度和穩定性,如何保持人物角色高度一致……開發團隊進行了大量技術探索,比選不同的技術路徑,最后開發出S2V模型——只需傳統方案1%的輸入量和計算成本,“上傳1張圖片”的效果就足夠好。在3年多時間里,一次次迭代升級,文生視頻、圖生視頻、主體參考等功能持續優化。這些創新,讓海螺AI視頻在激烈競爭中殺出重圍,用戶分布在全球超200個國家和地區。
在文生語音等功能上,MiniMax也走出了差異化路線。網友發現,MiniMax的語音功能竟然帶有情緒調節和效果器功能,AI生成的語音可以帶上開心、難過、生氣等情緒,這一創新讓有聲書和廣播劇的生產力大幅提升。“通用人工智能不是簡單的互聯網流量變化,而是計算范式的顛覆式創新,將會引領生產力、社會分工以及產業結構的深刻變革。”MiniMax創始人閆俊杰說。
算力、算法和數據是人工智能發展的“鐵三角”。MiniMax創立之初,算力和數據十分有限,唯一選擇就是在算法上求突破。從2023年夏天開始,公司將80%的算力與研發資源投入底層架構研發,這在外人看來就像一場豪賭。“我們在工程上遇到的很多問題,源于一片漆黑的未知。”公司技術團隊在沒有成熟經驗可供借鑒的情況下,一次次試錯,持續進行摸索。一年后,公司成功推出基于MoE架構的模型。今年1月,大規模實現線性注意力機制的MiniMax-01模型誕生,并逐漸為行業廣泛認可。
“底層模型能力是決定大模型應用成功與否的首要因素。”MiniMax副總裁劉華告訴記者,雖然照著現成的圖紙蓋樓相對容易,但圖紙的不足也會限制樓房的高度。我們選擇用自己的圖紙構筑大廈,一開始或許慢一些,但希望能更好應對未來的挑戰。底層架構如同AI“新基建”,MiniMax-01模型突破了長文本處理瓶頸,可高效處理最長400萬token(詞元)的上下文。在工業領域,該模型可以快速解析百萬字設備日志,輔助故障診斷;在醫療場景,它可連續跟蹤患者數年病歷,生成個性化治療方案。最近兩年,大模型技術快速迭代,國際國內AI行業都在白熱化競爭。底層模型一次重大迭代對產品帶來的優化效果,會遠超在工程實現層面對產品進行“雕花”。這也是MiniMax始終緊盯模型本身,加速迭代升級的重要原因。
作為上海人工智能高地孵化的代表性企業,MiniMax的成長離不開這座城市獨特的文化和基因。上海匯聚了全球頂尖的AI人才,大量富有熱情的年輕人才,為產業快速發展提供了支撐。在MiniMax上海總部大樓,研發人員持續增多。不久前,上海推出人工智能“模塑申城”實施方案,在算力、場景、數據、人才方面推出一批有力舉措。上海還積極推動大模型企業與場景企業對接。以MiniMax為例,他們與小紅書合作打造生成式智能搜索,與閱文集團合作將數千本小說變成超自然、高保真的有聲書等,通過相互賦能實現更快發展。閆俊杰相信,“真正有價值的事,不是當前做得怎么樣,而是技術進化的速度。”
用人工智能生成視頻,是許多人樂于嘗試的應用。但AI的技術缺陷也引來很多吐槽:“上一段視頻中生成的是張三,下一段視頻就變成了另一張臉。無論怎么調整,都無法讓兩段視頻的主角變成同一人。”人物角色一致性的難題,讓AI難以制作出同一人物角色、不同故事情節的短片,大大限制了AI生成視頻的應用場景。
2025年1月,稀宇科技(MiniMax)發布的最新視頻模型化解了這一難題。用戶只需提供1張人物的正面照片,不論生成多少段風格迥異的視頻,主角都是這個人。這讓網友驚呼,一張照片就能做電影,這不是夢!
在創業過程中,MiniMax始終堅持技術驅動。動態視頻中如何保持人物面部多角度的真實度和穩定性,如何保持人物角色高度一致……開發團隊進行了大量技術探索,比選不同的技術路徑,最后開發出S2V模型——只需傳統方案1%的輸入量和計算成本,“上傳1張圖片”的效果就足夠好。在3年多時間里,一次次迭代升級,文生視頻、圖生視頻、主體參考等功能持續優化。這些創新,讓海螺AI視頻在激烈競爭中殺出重圍,用戶分布在全球超200個國家和地區。
在文生語音等功能上,MiniMax也走出了差異化路線。網友發現,MiniMax的語音功能竟然帶有情緒調節和效果器功能,AI生成的語音可以帶上開心、難過、生氣等情緒,這一創新讓有聲書和廣播劇的生產力大幅提升。“通用人工智能不是簡單的互聯網流量變化,而是計算范式的顛覆式創新,將會引領生產力、社會分工以及產業結構的深刻變革。”MiniMax創始人閆俊杰說。
算力、算法和數據是人工智能發展的“鐵三角”。MiniMax創立之初,算力和數據十分有限,唯一選擇就是在算法上求突破。從2023年夏天開始,公司將80%的算力與研發資源投入底層架構研發,這在外人看來就像一場豪賭。“我們在工程上遇到的很多問題,源于一片漆黑的未知。”公司技術團隊在沒有成熟經驗可供借鑒的情況下,一次次試錯,持續進行摸索。一年后,公司成功推出基于MoE架構的模型。今年1月,大規模實現線性注意力機制的MiniMax-01模型誕生,并逐漸為行業廣泛認可。
“底層模型能力是決定大模型應用成功與否的首要因素。”MiniMax副總裁劉華告訴記者,雖然照著現成的圖紙蓋樓相對容易,但圖紙的不足也會限制樓房的高度。我們選擇用自己的圖紙構筑大廈,一開始或許慢一些,但希望能更好應對未來的挑戰。底層架構如同AI“新基建”,MiniMax-01模型突破了長文本處理瓶頸,可高效處理最長400萬token(詞元)的上下文。在工業領域,該模型可以快速解析百萬字設備日志,輔助故障診斷;在醫療場景,它可連續跟蹤患者數年病歷,生成個性化治療方案。最近兩年,大模型技術快速迭代,國際國內AI行業都在白熱化競爭。底層模型一次重大迭代對產品帶來的優化效果,會遠超在工程實現層面對產品進行“雕花”。這也是MiniMax始終緊盯模型本身,加速迭代升級的重要原因。
作為上海人工智能高地孵化的代表性企業,MiniMax的成長離不開這座城市獨特的文化和基因。上海匯聚了全球頂尖的AI人才,大量富有熱情的年輕人才,為產業快速發展提供了支撐。在MiniMax上海總部大樓,研發人員持續增多。不久前,上海推出人工智能“模塑申城”實施方案,在算力、場景、數據、人才方面推出一批有力舉措。上海還積極推動大模型企業與場景企業對接。以MiniMax為例,他們與小紅書合作打造生成式智能搜索,與閱文集團合作將數千本小說變成超自然、高保真的有聲書等,通過相互賦能實現更快發展。閆俊杰相信,“真正有價值的事,不是當前做得怎么樣,而是技術進化的速度。”
本文鏈接:MiniMax緊盯底層模型加速迭代http://m.lensthegame.com/show-2-10792-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: AI時代 仍需一錘一鑿的“笨功夫”