近期基礎(chǔ)大模型領(lǐng)域熱點不斷,先是量化巨頭幻方上線全新系列模型DeepSeek-V3首個版本上線并同步開源,以極低訓(xùn)練成本引發(fā)海內(nèi)外對大模型經(jīng)濟性的廣泛" />

          設(shè)置
          • 日夜間
            隨系統(tǒng)
            淺色
            深色
          • 主題色

          MiniMax挑戰(zhàn)Transformer架構(gòu),要做AI agent時代的新基建?業(yè)內(nèi)稱沒有改變本質(zhì),尚需應(yīng)用共識

          2025-01-19 08:28:45 來源:

          21世紀經(jīng)濟報道記者鄧浩 上海報道ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM


          近期基礎(chǔ)大模型領(lǐng)域熱點不斷,先是量化巨頭幻方上線全新系列模型DeepSeek-V3首個版本上線并同步開源,以極低訓(xùn)練成本引發(fā)海內(nèi)外對大模型經(jīng)濟性的廣泛討論。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          1月15日,本土“大模型六小龍”之一的MiniMax發(fā)布并開源了MiniMax-01全新系列模型,第一次大規(guī)模實現(xiàn)線性注意力機制,直接挑戰(zhàn)傳統(tǒng)的Transformer架構(gòu),再一次在行業(yè)掀起巨浪。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          某大模型領(lǐng)域?qū)<覍τ浾呓忉專皞鹘y(tǒng)的Transformer的注意力機制的計算復(fù)雜度隨著序列長度的增加而呈二次增長,所以做長文本效率很低。MiniMax一直在做’線性注意力機制’這一套,做了比較大的改進,從而可以做到400萬token的超長上下文。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          也有不少業(yè)內(nèi)人士對記者表示,MiniMax的創(chuàng)新可以增強現(xiàn)有方法的效率,但沒有改變本質(zhì)。實際效果還需要應(yīng)用的驗證和共識。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          創(chuàng)新大模型增強效率ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此前,MiniMax一直選擇閉源,外界對其技術(shù)細節(jié)知之甚少,沒想到這一次上手即是“王炸”。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不僅采用全新架構(gòu),而且實現(xiàn)綜合性能比肩海外頂尖模型。據(jù)MiniMax透露,該模型的參數(shù)量高達4560億個,其中單次激活459億個。能夠高效處理全球最長400萬token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          為什么需要這么大的窗口處理能力?ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          事實上,在處理長文本內(nèi)容、復(fù)雜任務(wù)的高效執(zhí)行以及應(yīng)對多模態(tài)/跨模態(tài)任務(wù)等情況時,越高的信息處理能力越能讓模型充分理解需求,從而得到更優(yōu)的結(jié)果。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          雪浪云高級副總裁、雪浪工業(yè)軟件研究院副院長郭翹就對記者表示,“我們已經(jīng)積累了不少工業(yè)語料,相當于工業(yè)場景數(shù)據(jù),可以很快測試一些基礎(chǔ)大模型的能力,而上下文的長度是非常重要的指標。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          為什么可以做到?關(guān)鍵在于其使用了基于線性注意力機制的新架構(gòu),其中每8層中有7個是基于Lightning Attention的線性注意力,有1層是傳統(tǒng)的SoftMax注意力。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          用個通俗的比喻,假如我們需要在一個裝滿卷軸的藏寶箱,找出一個與寶藏位置最相關(guān)的卷軸。傳統(tǒng)的注意力機制類似于一群賞金獵人,每一個獵人會把手里的每一個卷軸都與其他所有卷軸依次做比較,隨著卷軸書數(shù)量的增多,工作量會呈平方級增長。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          而線性注意力機制相當于一位聰明的考古學(xué)家,他用一套相對簡單的辦法,依次對這些卷軸進行檢閱,不斷記錄并累計對線索的理解,最后得出綜合判斷。這個工作量是隨著卷軸增加而線性增長的,相對更高效。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          MiniMax稱,主要“受益于我們的架構(gòu)創(chuàng)新,我們的模型在處理長輸入的時候有非常高的效率,接近線性復(fù)雜度。”而且,MiniMax還在技術(shù)論文中透露,“我們正在研究更高效的架構(gòu),以期完全摒棄softmax注意力機制,從而有可能實現(xiàn)無計算負擔的無限上下文窗口。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          況客科技(北京)有限公司管理合伙人安嘉晨對記者表示,“(MiniMax的影響)現(xiàn)在談可能還為之過早,之前很多類似的其實最終沒有成功證明自己比transformer好,這個需要應(yīng)用的驗證和共識。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          某硅谷技術(shù)專家也對記者分析,“從去年開始,硅谷一直在詬病Transformer架構(gòu),認為沒辦法商用,成本消耗太大。Minimax的模型本質(zhì)是對現(xiàn)有方法效率的增強,但是沒有改變本質(zhì)。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對于MiniMax來說,花費巨大精力和成本構(gòu)建這個全新的架構(gòu),有著更大的野心。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          MiniMax直言,“我們相信2025年會是Agent高速發(fā)展的一年,不管是單Agent的系統(tǒng)需要持續(xù)的記憶,還是多Agent的系統(tǒng)中Agent之間大量的相互通信,都需要越來越長的上下文。在這個模型中,我們走出了第一步,并希望使用這個架構(gòu)持續(xù)建立復(fù)雜Agent所需的基礎(chǔ)能力。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不過,上述硅谷技術(shù)專家表示并不太認可這個說法,其認為“就單純AI agent來說,其實用不了太多的token,幾千個足夠了。多模態(tài)會需要,但技術(shù)還沒到這個點上。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          安嘉晨則坦言,“MiniMax的應(yīng)用很成功,星野之類的APP,但是(Agent)用模型的話,我覺得競爭還是很激烈的,現(xiàn)在很難說誰比誰明顯領(lǐng)先多少。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          開源、口碑與性價比ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          其實,在基礎(chǔ)大模型領(lǐng)域,自從OpenAI推出O1和O3模型之后,產(chǎn)業(yè)界和投資界都逐漸形成新的共識,Scaling Law已經(jīng)趨緩,預(yù)訓(xùn)練模型熱度開始轉(zhuǎn)向推理模型。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          前述硅谷技術(shù)專家稱,“預(yù)訓(xùn)練大模型,現(xiàn)在大家有一個統(tǒng)一的共識,還沒辦法轉(zhuǎn)化成真實的生產(chǎn)力,性價比極不合適。投資人也有點慌,因為不知道要燒(錢)到什么時候。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          最近的案例是李開復(fù)的零一萬物,李開復(fù)公開表態(tài),只有大廠能燒超大的模型,“我們覺得要和一個燒得起大模型的大廠合作,以后超大的模型由阿里訓(xùn)練,我們就可以用小而精的團隊來做小而便宜的模型,擁抱應(yīng)用的爆發(fā)。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          實際上,商業(yè)化是擺在現(xiàn)在大模型初創(chuàng)公司面前的一條必答題。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          除了零一萬物,月之暗面、百川智能、智譜AI等也在加速探索B端業(yè)務(wù)的變現(xiàn),而MiniMax相對比較另類,2023年6月和9月,其相繼在海外和國內(nèi)上線AI陪伴產(chǎn)品“Talkie”、“星野”。2024年5月上線C端產(chǎn)品“海螺AI”,作為生產(chǎn)力助手。此前有媒體預(yù)測,MiniMax2024年收入預(yù)計達到7000萬美元,而大部分收入來自Talkie的廣告。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該硅谷技術(shù)專家透露,“Minimax在國內(nèi)比較猶豫,但在海外愿意花錢去租GPU,可以側(cè)面印證海外收入還不錯。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          實際上,某熟悉MiniMax的業(yè)內(nèi)人士曾對記者表示,由于MiniMax創(chuàng)始團隊出身傳統(tǒng)AI四小龍,吃過不少B端的“虧”,比如項目制開發(fā),無法規(guī)模化做大,利潤微薄,因此其在大模型領(lǐng)域創(chuàng)業(yè)時特別注重商業(yè)變現(xiàn)。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          可是,現(xiàn)在價格內(nèi)卷也開始在預(yù)訓(xùn)練模型不斷蔓延,如何在白菜價中實現(xiàn)規(guī)模盈利,仍將繼續(xù)考驗入局的玩家。ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          MiniMax稱,“受益于架構(gòu)的創(chuàng)新、效率的優(yōu)化、集群訓(xùn)推一體的設(shè)計以及我們內(nèi)部大量并發(fā)算力復(fù)用,我們得以用業(yè)內(nèi)最低的價格區(qū)間提供文本和多模態(tài)理解的API,標準定價是輸入token 1元/百萬token,輸出token 8元/百萬token。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對于業(yè)內(nèi)比較關(guān)心的開源問題,MiniMax解釋,“選擇開源,一是因為我們認為這有可能啟發(fā)更多長上下文的研究和應(yīng)用,從而更快促進Agent時代的到來,二是開源也能促使我們努力做更多創(chuàng)新,更高質(zhì)量地開展后續(xù)的模型研發(fā)工作。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          前述硅谷技術(shù)專家對此表示,“我覺得大模型開源,主要還是做口碑。特別是在中國,一旦開源,客戶的選擇成本會很低。而且后續(xù)也可以有延伸的增值服務(wù)。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          安嘉晨也認為,“閉源模型要盈利,就只能卷性能,但卷性能和盈利這兩者幾乎很難平衡,也許只有少數(shù)的一兩個才能堅持閉源且盈利;開源的話,卷性能的需求下降了,自然成本壓力也能緩釋,還有可能占個生態(tài)位,未來還有建立商業(yè)模式的可能性。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          郭翹則對記者分析,“我們只關(guān)注開源模型,為什么不用閉源(模型)?因為制造業(yè)的客戶更關(guān)心數(shù)據(jù)安全,必須要保證私有化部署,而閉源模型通常是提供網(wǎng)絡(luò)接口,通過公有云服務(wù),這是B端客戶不太容易接受的。”ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

           ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

           ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ssb流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:MiniMax挑戰(zhàn)Transformer架構(gòu),要做AI agent時代的新基建?業(yè)內(nèi)稱沒有改變本質(zhì),尚需應(yīng)用共識http://m.lensthegame.com/show-2-10182-0.html

          聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務(wù)。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。

          上一篇: 新鮮早科技丨支付寶稱交易bug不會向用戶追款;TikTok禁令或不予執(zhí)行;抖音未放開海外用戶注冊

          下一篇: CES深觀察丨AI是絕對主角 中國產(chǎn)品展現(xiàn)競爭力

          熱門資訊

          • 50000臺套!西北首條小型風(fēng)冷氫燃料電池電堆全自動化生產(chǎn)線即將投產(chǎn)

            日前,盛世盈創(chuàng)氫能科技(陜西)有限公司(以下簡稱盛世盈創(chuàng))與協(xié)氫(上海)新能源科技有限公司宣布達成戰(zhàn)略合作,共同推進風(fēng)冷氫燃料電池電堆全自動化生產(chǎn)線(以下

          • 培育一批專利產(chǎn)業(yè)化樣板企業(yè)

            近日,國家知識產(chǎn)權(quán)局等五部門聯(lián)合印發(fā)了《專利產(chǎn)業(yè)化促進中小企業(yè)成長計劃實施方案》(以下簡稱《實施方案》)。《實施方案》提出,到2025年底,中小企業(yè)知

          • 人工智能探究癌癥發(fā)展機理

            據(jù)英國《金融時報》網(wǎng)站3月13日報道,科學(xué)家們已經(jīng)在利用人工智能(AI)闡釋人體所謂的“黑暗基因組”,并開發(fā)一種可能很強大的癌癥檢測、監(jiān)測和治療新

          • 人類祖先200萬年前開始捕魚

            美國《發(fā)現(xiàn)》雜志網(wǎng)站2月7日刊登題為《200萬年前,我們的人類祖先開始從水里撈魚》的文章,作者是科迪·科蒂爾,內(nèi)容編譯如下:捕魚可能是一種占許

          • 什么是“時空連續(xù)體”?

            英國“我超愛科學(xué)”網(wǎng)站1月1日刊登題為《什么是“時空連續(xù)體”?》的文章,作者是斯蒂芬·倫茨,內(nèi)容編譯如下:“時空連續(xù)體”(space-time continuu

          • 與狗互動有助放松和提高注意力

            據(jù)韓國建國大學(xué)研究人員發(fā)表在最新一期開放獲取期刊《公共科學(xué)圖書館·綜合》上的一項研究,與狗共度美好時光可減輕壓力,同時可增強與放松和注

          • 光儲行業(yè)迎來2000V新時代

            3月21日,由安徽省工業(yè)和信息化廳指導(dǎo)、中國光伏行業(yè)協(xié)會主辦、陽光電源股份有限公司承辦的“PAT2024愛光伏一生一世”先進技術(shù)研討會在合肥舉辦。光

          • 探索土衛(wèi)二的蛇形機器人問世

            美國加州理工學(xué)院噴氣推進實驗室的一個機器人專家團隊,與卡內(nèi)基梅隆大學(xué)機器人研究所科學(xué)家合作,開發(fā)出一種蛇形機器人,用于調(diào)查土星第六大衛(wèi)星土衛(wèi)二

          • GPU持續(xù)升級 如何應(yīng)對算力“貧富差距”

            英偉達的GPU又升級了。3月19日,英偉達CEO黃仁勛發(fā)布了最新的B200算力芯片GPU,F(xiàn)P8精度下的訓(xùn)練性能是上一代的2.5倍,F(xiàn)P4精度下的推理性能更是達到了上

          • 首發(fā)天璣9300+聯(lián)發(fā)科最強芯片!vivo X100s Pro入網(wǎng)

            3月23日消息,據(jù)最新爆料,vivo X100s Pro已經(jīng)獲得3C認證,估計 會在5月份前后發(fā)布。該機可以看做是vivo X100 Pro的小迭代機型,屬于半代升級款,與去年X90s類似

          • 英媒:人工智能助力抗體設(shè)計

            據(jù)英國《自然》周刊網(wǎng)站3月19日報道,研究人員首次利用生成式人工智能(AI)制造出全新抗體。報道稱,本周生物學(xué)預(yù)印本資料庫中的一份預(yù)印本報告的原理驗

          • “穿上就走”的通用外骨骼面世

            美國佐治亞理工學(xué)院機械工程師開發(fā)了一種控制機器人外骨骼的通用方法。無需專門訓(xùn)練、特別校準,對復(fù)雜算法進行調(diào)整后,用戶穿上外骨骼就可以直接行走

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 人妻无码一区二区三区AV| 相泽亚洲一区中文字幕| 乱色精品无码一区二区国产盗| 中文字幕亚洲一区| 日韩精品无码视频一区二区蜜桃| 国产精品一区在线观看你懂的| 成人日韩熟女高清视频一区| 人妻视频一区二区三区免费| 文中字幕一区二区三区视频播放 | 国产情侣一区二区| 国产精品一区二区av不卡| 精品免费国产一区二区三区 | 午夜影院一区二区| 亚洲av高清在线观看一区二区| 久久福利一区二区| 国产日韩精品一区二区在线观看播放| 久久亚洲中文字幕精品一区四| 中文字幕无线码一区2020青青| 久久精品一区二区东京热| 一区二区三区在线观看免费| 中文字幕VA一区二区三区 | 亚洲国产一区在线| 中文字幕无码一区二区三区本日 | 性色AV一区二区三区| 国产观看精品一区二区三区 | 美女福利视频一区二区| 激情亚洲一区国产精品| 亚洲AV无码一区二区三区系列| 国产一区二区三区无码免费| 夜夜爽一区二区三区精品| 3d动漫精品啪啪一区二区免费| 无码人妻少妇色欲AV一区二区| 国产美女视频一区| 91一区二区三区| 少妇无码AV无码一区| 久久精品无码一区二区app| 狠狠综合久久AV一区二区三区| 色窝窝无码一区二区三区色欲 | 无码乱人伦一区二区亚洲| 中文字幕一区二区三区免费视频| 国产在线精品一区在线观看|