21世紀經(jīng)濟報道記者孔海麗 北京報道
一支來自“中國的神秘力量”,一再震撼硅谷和華爾街,以算法打破了算力神話,重構(gòu)AI敘事。
當(dāng)?shù)貢r間1月27日,美股芯片板塊大幅調(diào)整,英偉達暴跌16.86%,創(chuàng)市值最大蒸發(fā)紀錄;博通大跌逾17%,甲骨文下跌近14%,納斯達克下挫3.07%。
很多投資者將這次的調(diào)整歸因于DeepSeek的崛起。這家位于杭州的人工智能公司,最近推出了最新開源大模型R1,其性能直追OpenAI大模型o1。
該公司去年12月推出的大模型DeepSeek-V3,多項測試性能比肩Anthropic的Claude-3.5和OpenAI的閉源模型GPT-4o,個別項目甚至有所超越。
正當(dāng)一批AI分析師認為DeepSeek只聚焦于語言大模型而暫時放棄開發(fā)多模態(tài)模型時,該公司卻于1月28日發(fā)布了一款多模態(tài)大模型Janus-Pro,而該模型在圖像生成基準測試中超過了OpenAI的DALL-E3,令人驚艷。
最令硅谷震驚的是,DeepSeek的開源大模型,性能卓越,卻是在更低成本、更短時間、更少算力的基礎(chǔ)上實現(xiàn)的。V3和R1的訓(xùn)練成本均只有550萬美元左右,不及Anthropic和OpenAI同類模型成本的十分之一。
1月27日,DeepSeek登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費App下載排行榜,超越了ChatGPT。
這當(dāng)然是不折不扣的奇跡。
美國總統(tǒng)特朗普當(dāng)?shù)貢r間27日在佛羅里達州邁阿密舉行的共和黨會議上表示,中國人工智能初創(chuàng)公司DeepSeek的崛起應(yīng)當(dāng)為美國企業(yè)敲響“警鐘”,“這可能是非常積極的發(fā)展。因此,與其投入數(shù)十億資金,不如花費更少的(資源),但愿能得出同樣的解決方案。”
人工智能國際大佬又是如何看待這一奇跡?
微軟首席執(zhí)行官薩蒂亞·納德拉(Satya Nadella)日前在達沃斯世界經(jīng)濟論壇上談到DeepSeek時表示:“DeepSeek的新模型令人印象深刻,他們不僅有效地構(gòu)建了一個開源模型,能夠在推理計算時高效運行,而且在計算效率方面表現(xiàn)出色。我們必須非常非常認真地對待中國的AI進步。”
創(chuàng)立于2022年的Perplexity,估值90億美元,是僅次于Anthropic和OpenAI等第一梯隊的人工智能新創(chuàng)企業(yè)。近日,Perplexity首席執(zhí)行官Aravind Srinivas(阿拉溫德·斯里尼瓦斯)在一次訪談中詳談了對DeepSeek的看法。
斯里尼瓦斯表示,需求是發(fā)明之母。由于硬件資源條件受限,中國企業(yè)不得不尋找變通方案,最終,“他們(DeepSeek)以更高效、更低成本的方式開發(fā)了類似(Anthropic和OpenAI)的技術(shù)。這確實讓人感到壓力”。如果說Meta正在趕上OpenAI或Anthropic,那么同樣的說法也可以用于中國趕上美國。
但是,為DeepSeek的成就感到興奮自豪之余,也要對世界人工智能永不停歇的發(fā)展勢頭保持客觀理性的認識,不可盲目自滿。記者近期采訪了多位國內(nèi)專家和相關(guān)從業(yè)人員、投資者,關(guān)于DeepSeek現(xiàn)象,有以下共識:
其一,V3和R1的重大突破,并不能證明算力不重要。
近幾年以O(shè)penAI為代表的美國人工智能發(fā)展,是建立在更強的算力、更大的參數(shù)、更高的成本之上。某種程度上,它可稱之為人工智能的“硅谷敘事”。這個粗放豪橫的模式講到極致,就是5000億美元的星際之門計劃。
但中國企業(yè)無法獲得高性能的芯片,也沒有那么多的資金。客觀條件受限,只能在底層算力基礎(chǔ)上進行架構(gòu)、算法和數(shù)據(jù)利用方面的探索,在特定領(lǐng)域走出一條高效率、低成本的實用主義路子。
這條路子就是如浙江大學(xué)計算機博士、美國南加州大學(xué)訪問學(xué)者傅聰所說的,在“后訓(xùn)練”過程中,通過學(xué)習(xí)CoT(思維鏈)的方式,一步一步推理得出結(jié)果,而不是直接預(yù)測答案,“這一方案,也是圈子內(nèi)對OpenAI o1模型實現(xiàn)路徑的猜測,而Deepseek用極快的速度,驗證了這一路徑的可行性!”
事實上,DeepSeek創(chuàng)始人梁文鋒透露,此前該公司已儲備了萬張A100芯片等。這比一般初創(chuàng)公司強多了。只不過,在開發(fā)V3和R1時,由于效率超出預(yù)期,他們無須使用那么多算力罷了。
其二,英偉達等芯片股的調(diào)整,主要是市場風(fēng)險的釋放,與DeepSeek的重大突破之間,邏輯上沒有必然聯(lián)系。
以英偉達為代表的人工智能板塊,已持續(xù)上漲幾年。中間雖然偶有波動,但調(diào)整并不充分。英偉達PE長期橫移在40倍上方,17日收盤后仍有45倍。
1月17日納斯達克芯片股的大跌,更多是在高估值風(fēng)險預(yù)期之下一種市場情緒的釋放。DeepSeek只是提供或者觸發(fā)了風(fēng)險情緒釋放的媒介。現(xiàn)在沒有證據(jù)足以表明,全球算力尤其是高端算力資源已經(jīng)過剩。更大的可能是,如果2025年打開了人工智能應(yīng)用的空間,算力需求也會隨之增加,只不過,像DeepSeek這樣高效率利用算力,將會被更多企業(yè)借鑒。AI硬件仍有很大的增長空間,算力敘事沒有過時。
當(dāng)?shù)貢r間1月27日,英偉達發(fā)表聲明表示,DeepSeek所取得的進展,顯示出其芯片在中國市場的實用價值,且未來為滿足DeepSeek的服務(wù)需求,將需要更多英偉達芯片。
其三,探索與追趕:中國企業(yè)的創(chuàng)新能力在增強。
梁文鋒去年7月在接受媒體采訪時說,硅谷習(xí)慣于將中國AI公司視為follow的角色,當(dāng)一個中國公司以創(chuàng)新貢獻者的身份,加入到他們游戲里去,而且表現(xiàn)優(yōu)異時,他們就很震驚。
毫無疑問,在大模型開發(fā)路徑上,DeepSeek扮演了一種創(chuàng)新者的角色,亦即低成本、少算力的高效集成之路。
作為追趕者,存在后發(fā)優(yōu)勢。1月26日,在拾象創(chuàng)始人兼CEO李廣密組織的關(guān)于 DeepSeek的閉門討論會上,專家提出,AI 類似階躍函數(shù),現(xiàn)在做追趕者的算力需求少了 10 倍。追趕者的算力成本一直不太高,而探索者還是要訓(xùn)練很多模型,有大量試錯成本。
后發(fā)者可以聰明地進行創(chuàng)新。舉個例子。大模型開發(fā)需要龐大的數(shù)據(jù)集(數(shù)據(jù)庫)。而數(shù)據(jù)有沒有標注,其精確度是不一樣的。前述專家透露,DeepSeek 非常重視數(shù)據(jù)標注,聽說梁文鋒自己也會打標簽,這就大大提高了他們數(shù)據(jù)的精確度。再比如,DeepSeek還善于做數(shù)據(jù)蒸餾(優(yōu)化篩選),當(dāng)然如果是開發(fā)通用大模型就不能做數(shù)據(jù)蒸餾。這些都是?該公司Post-training更高效率的體現(xiàn)。
DeepSeek給國內(nèi)同行的其他啟示還包括,大模型開發(fā)在降低成本的同時也可以探索智能的邊界,在Transformer之外尋找其他架構(gòu);產(chǎn)品上,AI agent在未獲得大規(guī)模應(yīng)用之前,有很大的探索空間,存在多領(lǐng)域商用的機會,今年在多模態(tài)方面,可能會出現(xiàn)能挑戰(zhàn)ChatGPT形態(tài)的產(chǎn)品。
硅谷一位華裔資深A(yù)I工程師對21世紀經(jīng)濟報道記者說,DeepSeek以低成本、高效率開發(fā)了幾款了不起的產(chǎn)品,探索出了一條全新的路徑,讓國際同行也不得不佩服,但我們在自豪之余,也要客觀認識到,DeepSeek等中國AI新創(chuàng)企業(yè),目前還不具備全面挑戰(zhàn)OpenAI、Anthropic這些巨頭的實力。人工智能的競爭才剛剛開始,前面有無限可能。
本文鏈接:21觀察|DeepSeek崛起:中國奇跡重構(gòu)全球AI敘事http://m.lensthegame.com/show-2-10414-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。