深度求索大模型：“花小錢辦大事”

2025-01-15 09:16:05 來源：科技日報

觀看：68

一個來自中國的開源模型，在開年之際聚焦了人工智能（AI）行業的目光。

日前，杭州深度求索人工智能基礎技術研究有限公司（以下簡稱“深度求索”）上線并同步開源DeepSeek-V3模型，同時公布長達53頁的技術報告，介紹關鍵技術和訓練細節。

和很多語焉不詳的報告相比，這份報告真正做到了開源。其中最抓人眼球的部分是，V3模型能力大幅升級，但訓練僅僅花費557.6萬美元，僅用2048塊H800顯卡，耗時不到兩個月。

美國人工智能初創公司Anthropic首席執行官達里奧·阿莫迪曾透露，GPT-4o的模型訓練成本約為1億美元。美國開放人工智能研究中心（OpenAI）創始成員之一安德烈·卡帕西點評，DeepSeek-V3讓在有限算力預算內進行模型預訓練這件事變得容易。

深度求索如何實現“花小錢辦大事”？它是否走出了大模型發展的一條新路？

降低模型推理成本

深度求索一直是國內AI版圖上位置相對獨特的一家——它是唯一沒有做2C（面向個人消費者）應用的公司，選擇開源路線，至今沒有融過資。

去年5月，深度求索發布DeepSeek-V2，以其創新的模型架構和史無前例的性價比爆火。模型推理成本被降至每百萬Tokens（大模型用來表示自然語言文本的單位）僅1元錢，約等于開源大模型Llama3 70B的七分之一，GPT-4 Turbo的七十分之一，引發字節、阿里、百度等企業的模型降價潮。

個中關節在于，DeepSeek提出的MLA（多頭潛在注意力機制）架構和DeepSeekMoESparse（采用稀疏結構的混合專家模型）結構，大幅降低了模型的計算量和顯存占用，實現了高效推理和經濟高效的訓練。

簡單來說，模型壓縮、專家并行訓練、FP8混合精度訓練、數據蒸餾與算法優化等一系列創新技術大幅降低了V3模型成本。作為新興的低精度訓練方法，FP8技術通過減少數據表示所需的位數，顯著降低了內存占用和計算需求。據報道，目前，谷歌等已將這項技術引入模型訓練與推理中。

深度科技研究院院長張孝榮在接受媒體采訪時說，DeepSeek的“出圈”是對其在大模型技術上的突破和創新的認可，其通過優化算法和工程實踐，實現高性能與低成本的平衡。DeepSeek為整個行業的發展注入活力，也對大模型的技術路徑和工程實踐產生積極影響，推動高效訓練、模型輕量化和工程優化。

有業內人士分析，V3在架構創新、訓練效率和推理性能方面展現巨大潛力，尤其在成本和性能的平衡方面作出重要貢獻。不過，與此同時，也仍有許多挑戰需要解決，如需進一步擴展上下文長度、優化多模態數據處理等。未來的研究方向包括提升模型的推理速度、完善更高效的硬件架構設計，以及增強多模態學習和生成能力。

不堆算力創新算法

大參數、大算力、大投入，這條已經被驗證行之有效的ChatGPT路徑，實則是絕大部分創業公司難以承受之重。

據報道，仍處于研發過程中的GPT-5，已進行過至少兩輪訓練，每輪訓練耗時數月，一輪計算成本接近5億美元。一年半過去，GPT-5仍未問世。這意味著，新一代通用大模型的訓練成本已達到十多億美元甚至更高。未來這一數字可能持續攀升。

規模定律（Scaling law）是指在訓練大模型時，數據量、參數量和計算資源越多，訓練出的模型能力和效果越好。然而，一段時間以來，行業對規模定律可持續性的疑問不絕于耳。

V3的出現提供了新的解法。“Scaling Law不只停留在預訓練階段，而是往后訓練，尤其是注重推理領域的后訓練集、強化學習等領域擴展。”智源研究院副院長兼總工程師林詠華接受科技日報記者采訪時說，這一點在國外以OpenAI o1發布為標志，國內則有DeepSeek使用強化學習訓練發布DeepSeek R1這個具有很強挖掘和激活能力的模型。

在林詠華看來，V3的發布，也印證了利用R1可以很好進行能力提升。

行業相關探索還有很多，如Kimi將強化學習用到更多搜索場景，發布以邏輯思考和深度思考為核心功能的數學模型K0-math；螞蟻技術研究院建立強化學習實驗室，圍繞如何在后訓練及強化學習上進行更多模型能力的探索。林詠華期待，未來不僅是靠堆砌更多算力、參數和數據，而是靠真正的算法創新，持續在后訓練階段幫助模型提升基礎能力。

值得注意的是，“省錢模式開啟”并不意味著算力式微。

V3發布后，360集團創始人周鴻祎發文稱贊“DeepSeek的進步對推動中國AI產業發展是極大利好”，但他也認為，這并非說中國AI發展不需要高端算力芯片。囤顯卡建算力集群依舊必要，因為目前預訓練算力需求或許沒那么大，但像慢思考這類復雜推理模型對推理算力需求大，文生圖、文生視頻的應用也需消耗大量算力資源。巨頭們提供AI云服務，構建龐大算力基礎必不可少，這與 DeepSeek 降低訓練算力需求是兩回事，兩者并不矛盾。

一位行業專家在接受記者采訪時認為，2025年，大模型行業會進一步收斂，這種收斂既包括技術層面，也包括廠商層面。進入“百模大戰”后期，要進一步提高模型計算效率，降低推理成本，對計算的架構分布、利用效率等都提出更為精細化的要求。

“燒錢”不是唯一邏輯

深度求索創始人梁文鋒在金融行業征戰已久。他成立的幻方量化早在2019年就開始大手筆投入深度學習訓練平臺。2023年7月，梁文鋒創立深度求索，專注AI大模型的研究和開發。

據報道，包括梁文鋒在內，深度求索僅有139名工程師和研究人員。在外界看來，這是一支“神秘的東方力量”。

但在一次采訪中，梁文鋒曾透露，深度求索并沒有什么高深莫測的奇才，團隊都是國內頂尖高校的應屆畢業生，沒畢業的博四、博五實習生，還有一些畢業才幾年的年輕人。他特別提及，“V2模型沒有海外回來的人，都是本土的”。

他也曾在訪談中說，過去30多年的IT浪潮，中國基本上扮演的是追隨者角色，“隨著經濟的發展，中國也應該逐步成為技術創新的主要貢獻者”。如今，V3的橫空出世貢獻了一個更高效率、更低成本的大模型發展樣本，也讓AI行業看到一種可能：雖然訓練大模型依然需要大規模顯卡集群，但“燒錢”不是行業唯一的邏輯，也并不是誰燒錢多，誰就注定贏得一切。

對此，周鴻祎評論道，V3用2000塊卡做到了萬卡集群才能做到的事。用這種極致訓練方法訓練專業大模型，算力成本會進一步降低，促使中國AI在專業、垂直、場景、行業大模型上更快普及。

一個來自中國的開源模型，在開年之際聚焦了人工智能（AI）行業的目光。

深度求索如何實現“花小錢辦大事”？它是否走出了大模型發展的一條新路？

降低模型推理成本

深度求索一直是國內AI版圖上位置相對獨特的一家——它是唯一沒有做2C（面向個人消費者）應用的公司，選擇開源路線，至今沒有融過資。

不堆算力創新算法

大參數、大算力、大投入，這條已經被驗證行之有效的ChatGPT路徑，實則是絕大部分創業公司難以承受之重。

在林詠華看來，V3的發布，也印證了利用R1可以很好進行能力提升。

值得注意的是，“省錢模式開啟”并不意味著算力式微。

“燒錢”不是唯一邏輯

據報道，包括梁文鋒在內，深度求索僅有139名工程師和研究人員。在外界看來，這是一支“神秘的東方力量”。

本文鏈接：深度求索大模型：“花小錢辦大事”http://m.lensthegame.com/show-2-10150-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任，僅提供存儲服務。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：快手年貨節促消費，近2.2萬主播商品交易總額增速超一倍

下一篇：科技讓環保執法有力度有溫度

深度求索大模型：“花小錢辦大事”

熱門資訊

推薦資訊

科技最熱文章