文/觀察者網(wǎng) 張廣凱
2025開年伊始,國內(nèi)大模型行業(yè)似乎正醞釀著一場劇烈的格局變動。
一邊是零一萬物與阿里云達(dá)成合作,不再獨(dú)立追求超大模型的預(yù)訓(xùn)練;另一邊,以豆包為代表的大廠模型仍在快速進(jìn)化,“不差錢”的DeepSeek更是以創(chuàng)新架構(gòu),讓人看到超越OpenAI的可能性。
這似乎印證了一段時間以來的流言:國內(nèi)大模型企業(yè)將進(jìn)一步收斂,一些過去的頭部玩家也開始掉隊?
另一個有趣的現(xiàn)象是,此前一直走閉源路線的MiniMax,最近突然發(fā)布了自己的開源模型。開源是弱勢方爭奪市場的捷徑,還是本身就具備比閉源更好的商業(yè)邏輯閉環(huán)?
當(dāng)然,美國對中國愈加嚴(yán)厲的政策限制,一直都是不容忽視的巨大風(fēng)險。國產(chǎn)大模型行業(yè)準(zhǔn)備好迎接進(jìn)一步脫鉤了嗎?
圍繞上述話題,我們邀請AI生態(tài)專家、曾任零一萬物開源及開發(fā)者生態(tài)負(fù)責(zé)人的林旅強(qiáng),以及Hugging Face工程師王鐵震進(jìn)行對話,收獲了不少新穎的觀點(diǎn)。
林旅強(qiáng)
王鐵震
摘要如下:
·中國大模型行業(yè)的研發(fā)能力與OpenAI沒有明顯差距,即使放棄預(yù)訓(xùn)練的團(tuán)隊,也并非因為訓(xùn)練效果不佳,只是更好的商業(yè)選擇。
·隨著主流模型能力基本夠用,一味追求模型能力最強(qiáng)或許是個誤區(qū)。以操作系統(tǒng)為例,性價比才是大規(guī)模應(yīng)用的決定性因素。
·當(dāng)算力成本進(jìn)一步降低,開源模型的性價比將更加突出。
·開源的優(yōu)勢還在于更容易成為行業(yè)標(biāo)準(zhǔn)。
·開源的AI開發(fā)工具鏈,對大模型的國產(chǎn)化替代意義巨大。
以下為對話全文:
放棄預(yù)訓(xùn)練,不是能力不夠
觀察者網(wǎng):可以聊聊最近零一萬物預(yù)訓(xùn)練團(tuán)隊并入阿里的事嗎?這是不是意味著,國內(nèi)頭部大模型公司之間的能力已經(jīng)在分化,零一發(fā)現(xiàn)自己預(yù)訓(xùn)練的效果不夠好?
林旅強(qiáng):完全不是這樣的。零一的團(tuán)隊很強(qiáng),預(yù)訓(xùn)練出來的東西也很強(qiáng),去年5月發(fā)布的Yi-Large,10月發(fā)布的Yi-Lightning都很好,尤其是Yi-Lightning,可以說是當(dāng)時時間點(diǎn)上最強(qiáng)的之一。
但是模型強(qiáng)不強(qiáng),跟商業(yè)上能不能走通是兩回事。零一絕對不是沒能力做預(yù)訓(xùn)練,而是作為一個小公司,必須面對現(xiàn)實——你投入巨大的資源去做預(yù)訓(xùn)練,能不能做到self sustainable?是不是對投資人負(fù)責(zé)?
所以一個公司最終還是要去找到符合商業(yè)規(guī)律的生存之道。
王鐵震:對,我非常同意。我要補(bǔ)充一下,其實中國的research非常強(qiáng),這兩年中國的大模型追得非常快,包括最近的DeepSeek,甚至讓OpenAI都感到一些危機(jī)。
如果說中國跟美國的頭部模型存在一些差距,我覺得不能說是人的問題,主要還是因為資金的分配、公司的政策方向等等。像零一這樣的中國公司,有最優(yōu)秀的團(tuán)隊,有開復(fù)老師的領(lǐng)導(dǎo),那么如果給它像OpenAI一樣的資金,它絕對也能做出同樣好的產(chǎn)品。但是這樣的條件在中國是很稀缺的。
大部分中國公司,不可能把無止境的資金投入到一個非常燒錢的項目里。在“六小虎”中,所有人一開始都是to b也要做,to c也要做,to developer也要做,foundamental research也要做,但是很快大家就會發(fā)現(xiàn),我不可能每一件事情都做得好,每一件事情的競爭都是非常激烈的,我需要把所有的精力放到某一個自己很擅長的事情上面,才能做出最好的效果。
可能零一也經(jīng)歷了這樣一波周期,發(fā)現(xiàn)必須把全部精力集中在做APP,或者專注做to b。我覺得這完全沒有問題,因為很少有公司能夠像DeepSeek或者阿里巴巴一樣,有另外賺錢的業(yè)務(wù)去養(yǎng)活不賺錢的foundamental research。
所以我覺得國內(nèi)做預(yù)訓(xùn)練的公司會越來越少,其實是一個好事,是更好的資源調(diào)配。想做預(yù)訓(xùn)練的人也可以更集中,資金也可以更集中,可能最后只有四五家模型,但每家都可以得到非常多的資金支持,可以走得更遠(yuǎn)更好。
中國很多行業(yè)都走過了類似的路,比如說電動汽車、光伏,都經(jīng)歷了自然淘汰的過程,從無序競爭到有序收斂,這是一個市場比較理想的狀態(tài)。
觀察者網(wǎng):也就是說國內(nèi)的大廠也好,“六小虎”也好,在大模型能力上還沒有顯著差距。
王鐵震:我認(rèn)為還在牌桌上的玩家,水平都沒有太大的差距,有差距的自己已經(jīng)放棄了,所以牌桌上的玩家確實在減少。
林旅強(qiáng):很多行業(yè)應(yīng)用,也未必非要去做預(yù)訓(xùn)練。例如百川很早就宣布把重點(diǎn)放在醫(yī)療,那么醫(yī)療大模型是不是一定需要做預(yù)訓(xùn)練?基于別人的基座大模型,拿行業(yè)數(shù)據(jù)去做后訓(xùn)練是不是足夠了?
所以退出牌桌的人,也不一定是失敗,而是調(diào)整。所有公司都要找到適合自己的路。
觀察者網(wǎng):那么當(dāng)初為什么大家一擁而上都去做預(yù)訓(xùn)練?是戰(zhàn)略選擇錯誤,還是擔(dān)心使用別人的模型,不是好的商業(yè)模式?
林旅強(qiáng):首先,你要向資本市場講一個故事。2023年上半年,資本市場會覺得一個團(tuán)隊能做預(yù)訓(xùn)練,代表團(tuán)隊的能力是很扎實的。
另一個原因是當(dāng)時的基座模型還不夠強(qiáng),后續(xù)去做fine-tune的效果也不好,所以只能自己去做基座。
現(xiàn)在,很多大模型效果已經(jīng)好到一定的程度,甚至10B以下的小模型都比當(dāng)時強(qiáng)很多了,對很多場景來說完全夠用了。所以大家不會再盲目追求超大模型。
王鐵震:對,剛開始的時候,你必須向資本市場證明自己的團(tuán)隊實力。只做fine-tune的團(tuán)隊,估值不會很高,后續(xù)做很多事情就會非常受限。而且最開始的那段時間,市場上資金是最充裕的,越往后融資越難,如果開始拿不到足夠資金,后面可能很快就死了。
還有很重要的一點(diǎn),是對人才的爭奪。那個時候大模型人才是相當(dāng)稀缺的,很多公司都需要開出非常高的薪水挖人。
做預(yù)訓(xùn)練更有利于去培養(yǎng)自己的團(tuán)隊。如果只是做微調(diào),你只能看到世界的一小部分,只有懂預(yù)訓(xùn)練的人才能告訴你,一個問題到底應(yīng)該用預(yù)訓(xùn)練解決,還是后訓(xùn)練解決。
但在今天這個時間點(diǎn),基于很多開源模型去做后訓(xùn)練,已經(jīng)能達(dá)到比較好的效果,預(yù)訓(xùn)練可能就更多是一種情懷了。
最好的大模型,未必要最強(qiáng)
觀察者網(wǎng):那么在今天這個時間點(diǎn)上,開源模型跟閉源模型的能力還有差距嗎?
林旅強(qiáng):我想先correct一下這個問題本身。模型就是模型,不會因為它是開源或者閉源就更強(qiáng)或更弱,模型強(qiáng)弱跟是否開源是完全兩個維度的事情。
觀察者網(wǎng):但是最早Llama之所以選擇做開源,可能是因為它不夠強(qiáng),要通過開源來搶市場。
林旅強(qiáng):開源確實有利于搶占市場,但是它想搶市場,跟它夠不夠強(qiáng),不能建立直接關(guān)系。現(xiàn)在DeepSeek也是開源,難道是因為它不夠強(qiáng)?所以我個人覺得Llama只是開源中一種情況,并不代表開源的本質(zhì)。
開源和閉源的參與者也是動態(tài)變化的,比如之前一直閉源的MiniMax,最近突然也做開源了,這并不只是取決于模型強(qiáng)弱。
王鐵震:這是一個經(jīng)常被問到的問題,最近我剛好也有一些新的想法。
首先就像前面提到的,沒有開源強(qiáng)的閉源模型已經(jīng)死掉了,所以結(jié)果就變成,閉源模型永遠(yuǎn)是大于等于開源模型。
之前我也覺得,開源模型跟最頭部的閉源模型相比,還是有非常大的差距。但是最近DeepSeek發(fā)布的成果,以及國內(nèi)在推理模型上面的進(jìn)展,都讓我覺得差距沒有那么大了,反而是OpenAI更應(yīng)該感到焦慮。
視頻生成模型也是一個很好的觀察角度。Sora是一個閉源模型,它剛出來的時候大家都驚嘆,中國跟它的差距非常大。但是現(xiàn)在大家驚嘆的反而是,Sora怎么一直都像個期貨,好像還不如中國的開源模型給力。
所以開源模型是可以很強(qiáng)的。但這個問題仍然很有價值,我會想問,如果開源模型廠商真的做出了比OpenAI更好的模型,它們還會不會繼續(xù)開源?整個開源生態(tài)本身已經(jīng)在收斂,如果再有更多廠商放棄開源預(yù)訓(xùn)練,對行業(yè)將是巨大損失,因為沒有市場競爭的話,很難保證大家都還愿意在這個牌桌上玩。
觀察者網(wǎng):所以仍然可以說,閉源模型大于等于開源模型?究竟有沒有哪家開源模型,能夠達(dá)到跟OpenAI差不多的能力?
林旅強(qiáng):其實對于開發(fā)者跟行業(yè)來說,很多開源模型的能力是足夠的。那么在同等能力情況下,如果有開源的選擇,我一定選開源,因為性價比就是開源強(qiáng)。
所以你怎么去評判強(qiáng)不強(qiáng)?論性價比開源超強(qiáng)。你的問題其實暗含了一個假設(shè),認(rèn)為模型能力一定要達(dá)到最強(qiáng),這件事情是很重要的。如果從科研角度或者公司估值的角度,追求最強(qiáng)確實是有意義的,但是從我們開發(fā)者角度,性價比高才能普及。
我舉個例子,PC端操作系統(tǒng),最強(qiáng)的肯定是Windows或者macOS,但是Linux對于全球行業(yè)的影響力或許更大。你看得到的機(jī)器上跑的都是Windows或者macOS,你看不到的機(jī)器上跑的基本都是Linux,后者的數(shù)量可能更多。
Linux甚至根本不需要一家公司去推動,它成立一個基金會,IBM、谷歌都會捐錢。每家捐幾百萬美元,就能換來持續(xù)可用的操作系統(tǒng),而且不會被人卡脖子。
所以究竟是Linux最強(qiáng),還是macOS比較強(qiáng),現(xiàn)在已經(jīng)沒有人care這一點(diǎn)了。
觀察者網(wǎng):有支持閉源的人,說開源模型是“智商稅”,認(rèn)為即使從成本來看,閉源也比開源要低。
林旅強(qiáng):我尊重他們的選擇,但我不認(rèn)同這個結(jié)論,開源相比閉源成本一定是低的。因為購買一個閉源模型本身就是很大的支出,在此之外,開源不會比閉源增加任何成本。
王鐵震:一些現(xiàn)在做閉源的公司,其實在過去的時代也在做開源,對NLP、OCR等領(lǐng)域都有很大幫助。后來在大模型領(lǐng)域轉(zhuǎn)向閉源,雖然很可惜,但是一定是經(jīng)過了深思熟慮,甚至可能也有激烈的內(nèi)部討論。那么一旦選定了技術(shù)路線,對外也只能這樣說。
1 2 3 下一頁 余下全文本文鏈接:對話|應(yīng)對卡脖子,開源是中國大模型安全的最優(yōu)解?http://m.lensthegame.com/show-3-59858-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇: 一箭18星!長六改火箭成功發(fā)射千帆極軌06組衛(wèi)星
下一篇: 山東,沖刺“北方第一”