中國(guó)AI雙子星，在硅谷教O(píng)penAI做事？

2025-01-23 17:14:20 來(lái)源：

觀看：40

國(guó)內(nèi)大模型圈迎來(lái)神仙打架，OpenAI一覺(jué)醒來(lái)驚呼變了天？

1月20日，DeepSeek沒(méi)有任何預(yù)兆地發(fā)布了DeepSeek-R1模型。不到兩個(gè)小時(shí)，Kimi k1.5新模型隨即發(fā)布。模型之外，還都附帶上了詳細(xì)的技術(shù)訓(xùn)練報(bào)告。

兩款推理模型，全面對(duì)標(biāo)OpenAI o1，在多項(xiàng)基準(zhǔn)測(cè)試中獲得了打平和超越o1的好成績(jī)。DeepSeek-R1文本推理模型出廠即開(kāi)源、可商用，Kimi k1.5同時(shí)支持文本和視覺(jué)推理，同樣各項(xiàng)指標(biāo)拉滿，成為首個(gè)實(shí)現(xiàn)o1完整版水平的多模態(tài)模型。

中國(guó)大模型界“雙子星”一夜間卷到海外，給了硅谷“億點(diǎn)點(diǎn)”震撼。社交平臺(tái)X上多位業(yè)界和學(xué)界大佬下場(chǎng)轉(zhuǎn)發(fā)、點(diǎn)贊DeepSeek-R1與Kimi k1.5的帖子。

英偉達(dá)AI科學(xué)家Jim Fan第一時(shí)間發(fā)帖總結(jié)兩者的相同點(diǎn)和差異性，評(píng)價(jià)所發(fā)表的論文是“重磅”級(jí)別。

（圖源：X）

(圖源：X)

多位AI技術(shù)大V對(duì)Kimi k1.5給予肯定，有人發(fā)表評(píng)論稱“又一個(gè)重量級(jí)模型誕生了，亮點(diǎn)是文本和視覺(jué)的多模態(tài)推理能力，這是多模態(tài)AI領(lǐng)域的重大突破”。有人將其與OpenAI o1相比較，感嘆OpenAI是否已經(jīng)被拉下了神壇，“越來(lái)越多的模型正在打敗OpenAI o1”？

（圖源：X）

面對(duì)來(lái)自中國(guó)的“攻擂者”，擠牙膏式釋放期貨的OpenAI首席執(zhí)行官Sam Altman在個(gè)人賬號(hào)發(fā)布帖子抱怨媒體炒作AGI，讓網(wǎng)友降低期待值，“下個(gè)月不會(huì)部署AGI，也不會(huì)構(gòu)建AGI”。沒(méi)想到，反而激怒了網(wǎng)友，被諷刺“賊喊捉賊”。

AI世界正在發(fā)生一些變化，DeepSeek-R1和Kimi k1.5驗(yàn)證了強(qiáng)化學(xué)習(xí)（RL）思路的可行性，開(kāi)始挑戰(zhàn)OpenAI的絕對(duì)領(lǐng)先地位。

同時(shí)，中國(guó)本土模型挑戰(zhàn)不可能性，實(shí)現(xiàn)換道超車，也是對(duì)國(guó)內(nèi)大模型行業(yè)的一次精神鼓舞。未來(lái)，中國(guó)AI企業(yè)仍有機(jī)會(huì)打破硅谷的技術(shù)壟斷，走出中國(guó)自主技術(shù)路線。

真正的滿血o1來(lái)了

繼去年11月發(fā)布的k0-math數(shù)學(xué)模型，12月發(fā)布的k1視覺(jué)思考模型之后，連續(xù)第三個(gè)月升級(jí)，Kimi帶來(lái)了K系列強(qiáng)化學(xué)習(xí)模型Kimi k1.5。

按照Kimi k系列思考模型路線圖，k0到kn進(jìn)化是模態(tài)和領(lǐng)域的全面拓展。k0屬于文本態(tài)，聚焦于數(shù)學(xué)領(lǐng)域；k1增加了視覺(jué)態(tài)，成為了OpenAI之外首個(gè)多模態(tài)版的o1，其領(lǐng)域擴(kuò)展至物理、化學(xué)；此次升級(jí)的k1.5仍是多模態(tài)，這也是Kimi模型突出特點(diǎn)之一，在領(lǐng)域上則由數(shù)理化升級(jí)到代碼、通用等更加常用和廣闊的領(lǐng)域。

從基準(zhǔn)測(cè)試成績(jī)看，k1.5多模態(tài)思考模型實(shí)現(xiàn)了SOTA（state-of-the-art）級(jí)別的多模態(tài)推理和通用推理能力。

國(guó)內(nèi)外宣傳達(dá)到o1水準(zhǔn)的模型很多，但是從數(shù)據(jù)來(lái)看，目前只有Kimi和DeepSeek發(fā)布的模型才是真正滿血版的o1，其他各家發(fā)布的模型還在o1-Preview的水平——差距有30%-40%。

以O(shè)penAI o1為基準(zhǔn)，其數(shù)學(xué)水平得分74.4分，編程水平得分67.2分，并且支持多模態(tài)。按此標(biāo)準(zhǔn)審視國(guó)內(nèi)已發(fā)布的推理模型，阿里QVQ、智譜GML、科大訊飛星火和階躍星辰Step系列模型與實(shí)際o1水平仍有一定距離。DeepSeek和Kimi模型在數(shù)學(xué)水平上均超過(guò)了OpenAI，編程水平接近o1水準(zhǔn)。但跟DeepSeek相比，Kimi支持多模態(tài)視覺(jué)推理，而DeepSeek只能識(shí)別文字，不支持圖片識(shí)別。

具體來(lái)看，在short-CoT（短思考）模式下，Kimi k1.5超越了其他一切模型。其數(shù)學(xué)、代碼、視覺(jué)多模態(tài)和通用能力，大幅超越了全球范圍內(nèi)短思考SOTA模型 GPT-4o和Claude 3.5 Sonnet的水平，領(lǐng)先達(dá)到550%。

在long-CoT（長(zhǎng)思考）模式下，Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力，也達(dá)到長(zhǎng)思考 SOTA 模型 OpenAI o1 正式版的水平。在兩個(gè)數(shù)學(xué)水平測(cè)試（AIME 2024和MATH-500）中打敗了o1，在編程水平測(cè)試（Codeforces）中與o1打平。這應(yīng)該是全球范圍內(nèi)，OpenAI之外的公司首次實(shí)現(xiàn)o1正式版的多模態(tài)推理性能。

Kimi k1.5的修煉秘籍

海內(nèi)外一起打call，實(shí)力水平經(jīng)得住考驗(yàn)，Kimi是如何修煉成“最強(qiáng)大腦”的？

看完干貨滿滿的技術(shù)報(bào)告，可以總結(jié)歸納為一種訓(xùn)練思路、一個(gè)訓(xùn)練方案和一個(gè)訓(xùn)練框架。其中，高效推理、優(yōu)化思路貫穿其中。

受制于數(shù)據(jù)量的限制，預(yù)訓(xùn)練“大力出奇跡”的方法在現(xiàn)實(shí)訓(xùn)練中屢屢碰壁，從OpenAI o1起行業(yè)內(nèi)開(kāi)始轉(zhuǎn)變訓(xùn)練范式，把更多的精力投入到強(qiáng)化學(xué)習(xí)上。

之前的思路可以理解為“直給”，即人類要主動(dòng)去“喂”給大模型數(shù)據(jù)，監(jiān)督大模型工作，介入大模型的“調(diào)教”過(guò)程。但強(qiáng)化學(xué)習(xí)的核心思路是，在沒(méi)有人過(guò)多干預(yù)的情況下，讓大模型自我學(xué)習(xí)和進(jìn)化。

此次Kimi的新模型更新便采用了強(qiáng)化學(xué)習(xí)的路徑，在訓(xùn)練過(guò)程中證明，無(wú)需依賴蒙特卡洛樹(shù)搜索、價(jià)值函數(shù)、過(guò)程獎(jiǎng)勵(lì)模型，也能讓模型取得不錯(cuò)的性能。

強(qiáng)化學(xué)習(xí)的思路集中體現(xiàn)在了“Long2Short”訓(xùn)練方案中，這也是Kimi技術(shù)報(bào)告的亮點(diǎn)所在。按其官方介紹，具體的做法為，先利用較大的上下文窗口，讓模型學(xué)會(huì)長(zhǎng)鏈?zhǔn)剿季S，再將“長(zhǎng)模型”的推理經(jīng)驗(yàn)轉(zhuǎn)移到“短模型”中，兩者進(jìn)行合并，最后針對(duì)“短模型”進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。

圖注：越靠近左上角越好

這種做法的好處在于，可以提升token的利用率以及訓(xùn)練效率，在模型性能和效率中間尋找到最優(yōu)解。

放到行業(yè)內(nèi)來(lái)看，Kimi的“Long2Short”訓(xùn)練方案也是“模型蒸餾”的體現(xiàn)。在這里，“長(zhǎng)模型”是老師，而“短模型”是學(xué)生，老師傳授給學(xué)生知識(shí)，利用大模型來(lái)提升小模型的性能。當(dāng)然，Kimi也采用了一些方法來(lái)提升效率，比如利用“長(zhǎng)模型”生成的多個(gè)樣本，取最短的正解為正樣本，生成時(shí)間長(zhǎng)的為負(fù)樣本，以此來(lái)形成對(duì)照組訓(xùn)練數(shù)據(jù)集。

為了適配強(qiáng)化學(xué)習(xí)訓(xùn)練，Kimi k1.5專門設(shè)計(jì)了特殊的強(qiáng)化學(xué)習(xí)框架，作為基座來(lái)支撐整個(gè)訓(xùn)練系統(tǒng)。

k1.5模型最高支持128k的上下文本長(zhǎng)度，如果模型每次都要完成一次完整的思維鏈生成和推理過(guò)程，對(duì)于計(jì)算資源、內(nèi)存存儲(chǔ)和訓(xùn)練穩(wěn)定性都會(huì)造成影響。因此，Kimi引進(jìn)了“Partial Rollouts”技術(shù)，生成的鏈路切分為多個(gè)步驟，而并非畢功與一役。

底層AI infra的搭建思路，體現(xiàn)了月之暗面在長(zhǎng)文本上的積累，如何實(shí)現(xiàn)資源最大化和高效是其一直重點(diǎn)解決的問(wèn)題，現(xiàn)在這種思路又將延續(xù)到思維鏈生成和推理上。

中國(guó)“雙子星”終結(jié)OpenAI神話？

從Kimi和DeepSeek身上，我們或許能看出未來(lái)模型訓(xùn)練的幾種趨勢(shì)：對(duì)于強(qiáng)化學(xué)習(xí)訓(xùn)練的投入和資源傾斜將加大；OpenAI o1成為了下一階段大模型入場(chǎng)的新門檻，技術(shù)、資源跟不上意味著掉隊(duì)；上下長(zhǎng)文本技術(shù)尤為重要，這將作為能夠生成和推理長(zhǎng)思維鏈的基礎(chǔ)；Scaling law還沒(méi)有完全失效，在一些局部，比如長(zhǎng)上下文本依然存在并且具有潛力。

中國(guó)“雙子星”打開(kāi)了OpenAI的黑箱。此前，OpenAI定義了大模型訓(xùn)練的四個(gè)階段：預(yù)訓(xùn)練、監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí)。現(xiàn)在，這個(gè)范式被打破了，Kimi 和DeepSeek都證明了可以跳過(guò)和簡(jiǎn)化某些環(huán)節(jié)來(lái)提升模型的訓(xùn)練效率和性能。

Kimi和DeepSeek效應(yīng)是雙重的。走出國(guó)門，向海外AI圈特別是硅谷證明，持續(xù)的專注于聚焦就能出奇跡，中國(guó)依然具備競(jìng)爭(zhēng)科技第一梯隊(duì)的能力。

OpenAI應(yīng)該反思，在投入如此資源和擁有高人才密度的情況下，為什么被來(lái)自中國(guó)的企業(yè)在多個(gè)方面趕超，這或許將給世界的競(jìng)爭(zhēng)格局帶來(lái)微妙的變化。人們不禁要問(wèn)，OpenAI的先發(fā)優(yōu)勢(shì)還能持續(xù)多久？不僅同一個(gè)國(guó)家有死對(duì)頭Anthropic，從其手中拿走了To B的單子，現(xiàn)在還要對(duì)來(lái)自中國(guó)的AI企業(yè)保持警惕。

在國(guó)內(nèi)，新的格局似乎已經(jīng)在變動(dòng)之中。DeepSeek憑借開(kāi)源和超越OpenAI性能的模型受到了前所未有的關(guān)注，甚至已經(jīng)開(kāi)始有人將其納入“AI 六小虎”的行列之中。

相較于以前，現(xiàn)階段的Kimi更加明確了從k0到kn的技術(shù)路線，盡管其表示“會(huì)聚焦在Kimi一個(gè)產(chǎn)品上”，但Kimi所承載的已經(jīng)遠(yuǎn)遠(yuǎn)超越了一個(gè)普通的AI應(yīng)用。

Kimi k1.5讓月之暗面拿下了下一階段的入場(chǎng)券，這也讓其在未來(lái)競(jìng)爭(zhēng)中掌握更多的主動(dòng)權(quán)。保持一定的領(lǐng)先之后，2025年新的目標(biāo)是如何活得更好。

新一輪洗牌悄悄開(kāi)始，誰(shuí)會(huì)先掉隊(duì)，誰(shuí)又能先突出重圍？

本文鏈接：中國(guó)AI雙子星，在硅谷教O(píng)penAI做事？http://m.lensthegame.com/show-3-59874-0.html

聲明：本網(wǎng)站為非營(yíng)利性網(wǎng)站，本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀點(diǎn)，本站不承擔(dān)任何法律責(zé)任，僅提供存儲(chǔ)服務(wù)。天上不會(huì)到餡餅，請(qǐng)大家謹(jǐn)防詐騙！若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。

上一篇：新亞電纜IPO：增長(zhǎng)乏力，研發(fā)投入偏低，“一股獨(dú)大”弊端

下一篇：覽富財(cái)經(jīng)網(wǎng)斬獲2024新浪財(cái)經(jīng)頭條年度大獎(jiǎng)

中國(guó)AI雙子星，在硅谷教O(píng)penAI做事？

（圖源：X）

(圖源：X)

（圖源：X）

真正的滿血o1來(lái)了

Kimi k1.5的修煉秘籍

圖注：越靠近左上角越好

中國(guó)“雙子星”終結(jié)OpenAI神話？

熱門資訊

推薦資訊

財(cái)經(jīng)最熱文章