1月15日,“AI六小虎”之一的MiniMax發布并開源了新一代01系列模型,包含基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。該系列模型使用多項突破性創新,以大規模應用線性注意力機制打破了Transformer傳統架構的記憶瓶頸。
未來,AI智能體有望成為最重要的產品形態,由于智能體處理的任務變得越來越復雜,涉及的數據量也越來越大,單個智能體的記憶以及多個智能體協作間的上下文都會變得越來越長。因此,長上下文能力與多模態處理能力的提升至關重要。
技術上,MiniMax-01系列模型首次將線性注意力機制擴展到商用模型的級別,受益于此次架構創新,該系列模型在處理長輸入的時候具有非常高的效率,接近線性復雜度。從規模效應、結構設計、訓練優化和推理優化等層面綜合考慮,MiniMax選擇模型參數量為4560億,其中每次激活459億,能夠高效處理400萬token的上下文,將有效替代Transformer傳統架構并開啟超長文本輸入時代。相較于Gemini等一眾全球頂級模型,MiniMax-01隨著輸入長度變長,性能衰減最慢。
值得注意的是,MiniMax還開源了Text-01模型、VL-01模型的完整權重,以便于更多開發者做有價值、突破性的研究。MiniMax方面表示,“我們認為這有可能啟發更多長上下文的研究和應用,從而更快促進Agent時代的到來,二是開源也能促使我們努力做更多創新,更高質量地開展后續的模型研發工作。”
1月15日,“AI六小虎”之一的MiniMax發布并開源了新一代01系列模型,包含基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。該系列模型使用多項突破性創新,以大規模應用線性注意力機制打破了Transformer傳統架構的記憶瓶頸。
未來,AI智能體有望成為最重要的產品形態,由于智能體處理的任務變得越來越復雜,涉及的數據量也越來越大,單個智能體的記憶以及多個智能體協作間的上下文都會變得越來越長。因此,長上下文能力與多模態處理能力的提升至關重要。
技術上,MiniMax-01系列模型首次將線性注意力機制擴展到商用模型的級別,受益于此次架構創新,該系列模型在處理長輸入的時候具有非常高的效率,接近線性復雜度。從規模效應、結構設計、訓練優化和推理優化等層面綜合考慮,MiniMax選擇模型參數量為4560億,其中每次激活459億,能夠高效處理400萬token的上下文,將有效替代Transformer傳統架構并開啟超長文本輸入時代。相較于Gemini等一眾全球頂級模型,MiniMax-01隨著輸入長度變長,性能衰減最慢。
值得注意的是,MiniMax還開源了Text-01模型、VL-01模型的完整權重,以便于更多開發者做有價值、突破性的研究。MiniMax方面表示,“我們認為這有可能啟發更多長上下文的研究和應用,從而更快促進Agent時代的到來,二是開源也能促使我們努力做更多創新,更高質量地開展后續的模型研發工作。”
本文鏈接:解決傳統架構記憶瓶頸 MiniMax發布新一代模型http://m.lensthegame.com/show-2-10161-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 深瞳丨AI為藥物研發按下“快進鍵”