一個來自中國的開源模型,在開年之際聚焦了人工智能(AI)行業的目光。
日前,杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“深度求索”)上線并同步開源DeepSeek-V3模型,同時公布長達53頁的技術報告,介紹關鍵技術和訓練細節。
和很多語焉不詳的報告相比,這份報告真正做到了開源。其中最抓人眼球的部分是,V3模型能力大幅升級,但訓練僅僅花費557.6萬美元,僅用2048塊H800顯卡,耗時不到兩個月。
美國人工智能初創公司Anthropic首席執行官達里奧·阿莫迪曾透露,GPT-4o的模型訓練成本約為1億美元。美國開放人工智能研究中心(OpenAI)創始成員之一安德烈·卡帕西點評,DeepSeek-V3讓在有限算力預算內進行模型預訓練這件事變得容易。
深度求索如何實現“花小錢辦大事”?它是否走出了大模型發展的一條新路?
降低模型推理成本
深度求索一直是國內AI版圖上位置相對獨特的一家——它是唯一沒有做2C(面向個人消費者)應用的公司,選擇開源路線,至今沒有融過資。
去年5月,深度求索發布DeepSeek-V2,以其創新的模型架構和史無前例的性價比爆火。模型推理成本被降至每百萬Tokens(大模型用來表示自然語言文本的單位)僅1元錢,約等于開源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引發字節、阿里、百度等企業的模型降價潮。
個中關節在于,DeepSeek提出的MLA(多頭潛在注意力機制)架構和DeepSeekMoESparse(采用稀疏結構的混合專家模型)結構,大幅降低了模型的計算量和顯存占用,實現了高效推理和經濟高效的訓練。
簡單來說,模型壓縮、專家并行訓練、FP8混合精度訓練、數據蒸餾與算法優化等一系列創新技術大幅降低了V3模型成本。作為新興的低精度訓練方法,FP8技術通過減少數據表示所需的位數,顯著降低了內存占用和計算需求。據報道,目前,谷歌等已將這項技術引入模型訓練與推理中。
深度科技研究院院長張孝榮在接受媒體采訪時說,DeepSeek的“出圈”是對其在大模型技術上的突破和創新的認可,其通過優化算法和工程實踐,實現高性能與低成本的平衡。DeepSeek為整個行業的發展注入活力,也對大模型的技術路徑和工程實踐產生積極影響,推動高效訓練、模型輕量化和工程優化。
有業內人士分析,V3在架構創新、訓練效率和推理性能方面展現巨大潛力,尤其在成本和性能的平衡方面作出重要貢獻。不過,與此同時,也仍有許多挑戰需要解決,如需進一步擴展上下文長度、優化多模態數據處理等。未來的研究方向包括提升模型的推理速度、完善更高效的硬件架構設計,以及增強多模態學習和生成能力。
不堆算力創新算法
大參數、大算力、大投入,這條已經被驗證行之有效的ChatGPT路徑,實則是絕大部分創業公司難以承受之重。
據報道,仍處于研發過程中的GPT-5,已進行過至少兩輪訓練,每輪訓練耗時數月,一輪計算成本接近5億美元。一年半過去,GPT-5仍未問世。這意味著,新一代通用大模型的訓練成本已達到十多億美元甚至更高。未來這一數字可能持續攀升。
規模定律(Scaling law)是指在訓練大模型時,數據量、參數量和計算資源越多,訓練出的模型能力和效果越好。然而,一段時間以來,行業對規模定律可持續性的疑問不絕于耳。
V3的出現提供了新的解法。“Scaling Law不只停留在預訓練階段,而是往后訓練,尤其是注重推理領域的后訓練集、強化學習等領域擴展。”智源研究院副院長兼總工程師林詠華接受科技日報記者采訪時說,這一點在國外以OpenAI o1發布為標志,國內則有DeepSeek使用強化學習訓練發布DeepSeek R1這個具有很強挖掘和激活能力的模型。
在林詠華看來,V3的發布,也印證了利用R1可以很好進行能力提升。
行業相關探索還有很多,如Kimi將強化學習用到更多搜索場景,發布以邏輯思考和深度思考為核心功能的數學模型K0-math;螞蟻技術研究院建立強化學習實驗室,圍繞如何在后訓練及強化學習上進行更多模型能力的探索。林詠華期待,未來不僅是靠堆砌更多算力、參數和數據,而是靠真正的算法創新,持續在后訓練階段幫助模型提升基礎能力。
值得注意的是,“省錢模式開啟”并不意味著算力式微。
V3發布后,360集團創始人周鴻祎發文稱贊“DeepSeek的進步對推動中國AI產業發展是極大利好”,但他也認為,這并非說中國AI發展不需要高端算力芯片。囤顯卡建算力集群依舊必要,因為目前預訓練算力需求或許沒那么大,但像慢思考這類復雜推理模型對推理算力需求大,文生圖、文生視頻的應用也需消耗大量算力資源。巨頭們提供AI云服務,構建龐大算力基礎必不可少,這與 DeepSeek 降低訓練算力需求是兩回事,兩者并不矛盾。
一位行業專家在接受記者采訪時認為,2025年,大模型行業會進一步收斂,這種收斂既包括技術層面,也包括廠商層面。進入“百模大戰”后期,要進一步提高模型計算效率,降低推理成本,對計算的架構分布、利用效率等都提出更為精細化的要求。
“燒錢”不是唯一邏輯
深度求索創始人梁文鋒在金融行業征戰已久。他成立的幻方量化早在2019年就開始大手筆投入深度學習訓練平臺。2023年7月,梁文鋒創立深度求索,專注AI大模型的研究和開發。
據報道,包括梁文鋒在內,深度求索僅有139名工程師和研究人員。在外界看來,這是一支“神秘的東方力量”。
但在一次采訪中,梁文鋒曾透露,深度求索并沒有什么高深莫測的奇才,團隊都是國內頂尖高校的應屆畢業生,沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。他特別提及,“V2模型沒有海外回來的人,都是本土的”。
他也曾在訪談中說,過去30多年的IT浪潮,中國基本上扮演的是追隨者角色,“隨著經濟的發展,中國也應該逐步成為技術創新的主要貢獻者”。如今,V3的橫空出世貢獻了一個更高效率、更低成本的大模型發展樣本,也讓AI行業看到一種可能:雖然訓練大模型依然需要大規模顯卡集群,但“燒錢”不是行業唯一的邏輯,也并不是誰燒錢多,誰就注定贏得一切。
對此,周鴻祎評論道,V3用2000塊卡做到了萬卡集群才能做到的事。用這種極致訓練方法訓練專業大模型,算力成本會進一步降低,促使中國AI在專業、垂直、場景、行業大模型上更快普及。
一個來自中國的開源模型,在開年之際聚焦了人工智能(AI)行業的目光。
日前,杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“深度求索”)上線并同步開源DeepSeek-V3模型,同時公布長達53頁的技術報告,介紹關鍵技術和訓練細節。
和很多語焉不詳的報告相比,這份報告真正做到了開源。其中最抓人眼球的部分是,V3模型能力大幅升級,但訓練僅僅花費557.6萬美元,僅用2048塊H800顯卡,耗時不到兩個月。
美國人工智能初創公司Anthropic首席執行官達里奧·阿莫迪曾透露,GPT-4o的模型訓練成本約為1億美元。美國開放人工智能研究中心(OpenAI)創始成員之一安德烈·卡帕西點評,DeepSeek-V3讓在有限算力預算內進行模型預訓練這件事變得容易。
深度求索如何實現“花小錢辦大事”?它是否走出了大模型發展的一條新路?
降低模型推理成本
深度求索一直是國內AI版圖上位置相對獨特的一家——它是唯一沒有做2C(面向個人消費者)應用的公司,選擇開源路線,至今沒有融過資。
去年5月,深度求索發布DeepSeek-V2,以其創新的模型架構和史無前例的性價比爆火。模型推理成本被降至每百萬Tokens(大模型用來表示自然語言文本的單位)僅1元錢,約等于開源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引發字節、阿里、百度等企業的模型降價潮。
個中關節在于,DeepSeek提出的MLA(多頭潛在注意力機制)架構和DeepSeekMoESparse(采用稀疏結構的混合專家模型)結構,大幅降低了模型的計算量和顯存占用,實現了高效推理和經濟高效的訓練。
簡單來說,模型壓縮、專家并行訓練、FP8混合精度訓練、數據蒸餾與算法優化等一系列創新技術大幅降低了V3模型成本。作為新興的低精度訓練方法,FP8技術通過減少數據表示所需的位數,顯著降低了內存占用和計算需求。據報道,目前,谷歌等已將這項技術引入模型訓練與推理中。
深度科技研究院院長張孝榮在接受媒體采訪時說,DeepSeek的“出圈”是對其在大模型技術上的突破和創新的認可,其通過優化算法和工程實踐,實現高性能與低成本的平衡。DeepSeek為整個行業的發展注入活力,也對大模型的技術路徑和工程實踐產生積極影響,推動高效訓練、模型輕量化和工程優化。
有業內人士分析,V3在架構創新、訓練效率和推理性能方面展現巨大潛力,尤其在成本和性能的平衡方面作出重要貢獻。不過,與此同時,也仍有許多挑戰需要解決,如需進一步擴展上下文長度、優化多模態數據處理等。未來的研究方向包括提升模型的推理速度、完善更高效的硬件架構設計,以及增強多模態學習和生成能力。
不堆算力創新算法
大參數、大算力、大投入,這條已經被驗證行之有效的ChatGPT路徑,實則是絕大部分創業公司難以承受之重。
據報道,仍處于研發過程中的GPT-5,已進行過至少兩輪訓練,每輪訓練耗時數月,一輪計算成本接近5億美元。一年半過去,GPT-5仍未問世。這意味著,新一代通用大模型的訓練成本已達到十多億美元甚至更高。未來這一數字可能持續攀升。
規模定律(Scaling law)是指在訓練大模型時,數據量、參數量和計算資源越多,訓練出的模型能力和效果越好。然而,一段時間以來,行業對規模定律可持續性的疑問不絕于耳。
V3的出現提供了新的解法。“Scaling Law不只停留在預訓練階段,而是往后訓練,尤其是注重推理領域的后訓練集、強化學習等領域擴展。”智源研究院副院長兼總工程師林詠華接受科技日報記者采訪時說,這一點在國外以OpenAI o1發布為標志,國內則有DeepSeek使用強化學習訓練發布DeepSeek R1這個具有很強挖掘和激活能力的模型。
在林詠華看來,V3的發布,也印證了利用R1可以很好進行能力提升。
行業相關探索還有很多,如Kimi將強化學習用到更多搜索場景,發布以邏輯思考和深度思考為核心功能的數學模型K0-math;螞蟻技術研究院建立強化學習實驗室,圍繞如何在后訓練及強化學習上進行更多模型能力的探索。林詠華期待,未來不僅是靠堆砌更多算力、參數和數據,而是靠真正的算法創新,持續在后訓練階段幫助模型提升基礎能力。
值得注意的是,“省錢模式開啟”并不意味著算力式微。
V3發布后,360集團創始人周鴻祎發文稱贊“DeepSeek的進步對推動中國AI產業發展是極大利好”,但他也認為,這并非說中國AI發展不需要高端算力芯片。囤顯卡建算力集群依舊必要,因為目前預訓練算力需求或許沒那么大,但像慢思考這類復雜推理模型對推理算力需求大,文生圖、文生視頻的應用也需消耗大量算力資源。巨頭們提供AI云服務,構建龐大算力基礎必不可少,這與 DeepSeek 降低訓練算力需求是兩回事,兩者并不矛盾。
一位行業專家在接受記者采訪時認為,2025年,大模型行業會進一步收斂,這種收斂既包括技術層面,也包括廠商層面。進入“百模大戰”后期,要進一步提高模型計算效率,降低推理成本,對計算的架構分布、利用效率等都提出更為精細化的要求。
“燒錢”不是唯一邏輯
深度求索創始人梁文鋒在金融行業征戰已久。他成立的幻方量化早在2019年就開始大手筆投入深度學習訓練平臺。2023年7月,梁文鋒創立深度求索,專注AI大模型的研究和開發。
據報道,包括梁文鋒在內,深度求索僅有139名工程師和研究人員。在外界看來,這是一支“神秘的東方力量”。
但在一次采訪中,梁文鋒曾透露,深度求索并沒有什么高深莫測的奇才,團隊都是國內頂尖高校的應屆畢業生,沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。他特別提及,“V2模型沒有海外回來的人,都是本土的”。
他也曾在訪談中說,過去30多年的IT浪潮,中國基本上扮演的是追隨者角色,“隨著經濟的發展,中國也應該逐步成為技術創新的主要貢獻者”。如今,V3的橫空出世貢獻了一個更高效率、更低成本的大模型發展樣本,也讓AI行業看到一種可能:雖然訓練大模型依然需要大規模顯卡集群,但“燒錢”不是行業唯一的邏輯,也并不是誰燒錢多,誰就注定贏得一切。
對此,周鴻祎評論道,V3用2000塊卡做到了萬卡集群才能做到的事。用這種極致訓練方法訓練專業大模型,算力成本會進一步降低,促使中國AI在專業、垂直、場景、行業大模型上更快普及。
本文鏈接:深度求索大模型:“花小錢辦大事”http://m.lensthegame.com/show-2-10150-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 快手年貨節促消費,近2.2萬主播商品交易總額增速超一倍
下一篇: 科技讓環保執法有力度有溫度