設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          深度求索大模型:“花小錢辦大事”

          2025-01-15 09:16:05 來源: 科技日報

          一個來自中國的開源模型,在開年之際聚焦了人工智能(AI)行業的目光。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          日前,杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“深度求索”)上線并同步開源DeepSeek-V3模型,同時公布長達53頁的技術報告,介紹關鍵技術和訓練細節。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          和很多語焉不詳的報告相比,這份報告真正做到了開源。其中最抓人眼球的部分是,V3模型能力大幅升級,但訓練僅僅花費557.6萬美元,僅用2048塊H800顯卡,耗時不到兩個月。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          美國人工智能初創公司Anthropic首席執行官達里奧·阿莫迪曾透露,GPT-4o的模型訓練成本約為1億美元。美國開放人工智能研究中心(OpenAI)創始成員之一安德烈·卡帕西點評,DeepSeek-V3讓在有限算力預算內進行模型預訓練這件事變得容易。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度求索如何實現“花小錢辦大事”?它是否走出了大模型發展的一條新路?a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          降低模型推理成本a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度求索一直是國內AI版圖上位置相對獨特的一家——它是唯一沒有做2C(面向個人消費者)應用的公司,選擇開源路線,至今沒有融過資。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          去年5月,深度求索發布DeepSeek-V2,以其創新的模型架構和史無前例的性價比爆火。模型推理成本被降至每百萬Tokens(大模型用來表示自然語言文本的單位)僅1元錢,約等于開源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引發字節、阿里、百度等企業的模型降價潮。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          個中關節在于,DeepSeek提出的MLA(多頭潛在注意力機制)架構和DeepSeekMoESparse(采用稀疏結構的混合專家模型)結構,大幅降低了模型的計算量和顯存占用,實現了高效推理和經濟高效的訓練。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          簡單來說,模型壓縮、專家并行訓練、FP8混合精度訓練、數據蒸餾與算法優化等一系列創新技術大幅降低了V3模型成本。作為新興的低精度訓練方法,FP8技術通過減少數據表示所需的位數,顯著降低了內存占用和計算需求。據報道,目前,谷歌等已將這項技術引入模型訓練與推理中。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度科技研究院院長張孝榮在接受媒體采訪時說,DeepSeek的“出圈”是對其在大模型技術上的突破和創新的認可,其通過優化算法和工程實踐,實現高性能與低成本的平衡。DeepSeek為整個行業的發展注入活力,也對大模型的技術路徑和工程實踐產生積極影響,推動高效訓練、模型輕量化和工程優化。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          有業內人士分析,V3在架構創新、訓練效率和推理性能方面展現巨大潛力,尤其在成本和性能的平衡方面作出重要貢獻。不過,與此同時,也仍有許多挑戰需要解決,如需進一步擴展上下文長度、優化多模態數據處理等。未來的研究方向包括提升模型的推理速度、完善更高效的硬件架構設計,以及增強多模態學習和生成能力。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不堆算力創新算法a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          大參數、大算力、大投入,這條已經被驗證行之有效的ChatGPT路徑,實則是絕大部分創業公司難以承受之重。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          據報道,仍處于研發過程中的GPT-5,已進行過至少兩輪訓練,每輪訓練耗時數月,一輪計算成本接近5億美元。一年半過去,GPT-5仍未問世。這意味著,新一代通用大模型的訓練成本已達到十多億美元甚至更高。未來這一數字可能持續攀升。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          規模定律(Scaling law)是指在訓練大模型時,數據量、參數量和計算資源越多,訓練出的模型能力和效果越好。然而,一段時間以來,行業對規模定律可持續性的疑問不絕于耳。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          V3的出現提供了新的解法。“Scaling Law不只停留在預訓練階段,而是往后訓練,尤其是注重推理領域的后訓練集、強化學習等領域擴展。”智源研究院副院長兼總工程師林詠華接受科技日報記者采訪時說,這一點在國外以OpenAI o1發布為標志,國內則有DeepSeek使用強化學習訓練發布DeepSeek R1這個具有很強挖掘和激活能力的模型。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在林詠華看來,V3的發布,也印證了利用R1可以很好進行能力提升。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          行業相關探索還有很多,如Kimi將強化學習用到更多搜索場景,發布以邏輯思考和深度思考為核心功能的數學模型K0-math;螞蟻技術研究院建立強化學習實驗室,圍繞如何在后訓練及強化學習上進行更多模型能力的探索。林詠華期待,未來不僅是靠堆砌更多算力、參數和數據,而是靠真正的算法創新,持續在后訓練階段幫助模型提升基礎能力。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          值得注意的是,“省錢模式開啟”并不意味著算力式微。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          V3發布后,360集團創始人周鴻祎發文稱贊“DeepSeek的進步對推動中國AI產業發展是極大利好”,但他也認為,這并非說中國AI發展不需要高端算力芯片。囤顯卡建算力集群依舊必要,因為目前預訓練算力需求或許沒那么大,但像慢思考這類復雜推理模型對推理算力需求大,文生圖、文生視頻的應用也需消耗大量算力資源。巨頭們提供AI云服務,構建龐大算力基礎必不可少,這與 DeepSeek 降低訓練算力需求是兩回事,兩者并不矛盾。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一位行業專家在接受記者采訪時認為,2025年,大模型行業會進一步收斂,這種收斂既包括技術層面,也包括廠商層面。進入“百模大戰”后期,要進一步提高模型計算效率,降低推理成本,對計算的架構分布、利用效率等都提出更為精細化的要求。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          “燒錢”不是唯一邏輯a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度求索創始人梁文鋒在金融行業征戰已久。他成立的幻方量化早在2019年就開始大手筆投入深度學習訓練平臺。2023年7月,梁文鋒創立深度求索,專注AI大模型的研究和開發。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          據報道,包括梁文鋒在內,深度求索僅有139名工程師和研究人員。在外界看來,這是一支“神秘的東方力量”。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          但在一次采訪中,梁文鋒曾透露,深度求索并沒有什么高深莫測的奇才,團隊都是國內頂尖高校的應屆畢業生,沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。他特別提及,“V2模型沒有海外回來的人,都是本土的”。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          他也曾在訪談中說,過去30多年的IT浪潮,中國基本上扮演的是追隨者角色,“隨著經濟的發展,中國也應該逐步成為技術創新的主要貢獻者”。如今,V3的橫空出世貢獻了一個更高效率、更低成本的大模型發展樣本,也讓AI行業看到一種可能:雖然訓練大模型依然需要大規模顯卡集群,但“燒錢”不是行業唯一的邏輯,也并不是誰燒錢多,誰就注定贏得一切。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對此,周鴻祎評論道,V3用2000塊卡做到了萬卡集群才能做到的事。用這種極致訓練方法訓練專業大模型,算力成本會進一步降低,促使中國AI在專業、垂直、場景、行業大模型上更快普及。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一個來自中國的開源模型,在開年之際聚焦了人工智能(AI)行業的目光。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          日前,杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“深度求索”)上線并同步開源DeepSeek-V3模型,同時公布長達53頁的技術報告,介紹關鍵技術和訓練細節。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          和很多語焉不詳的報告相比,這份報告真正做到了開源。其中最抓人眼球的部分是,V3模型能力大幅升級,但訓練僅僅花費557.6萬美元,僅用2048塊H800顯卡,耗時不到兩個月。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          美國人工智能初創公司Anthropic首席執行官達里奧·阿莫迪曾透露,GPT-4o的模型訓練成本約為1億美元。美國開放人工智能研究中心(OpenAI)創始成員之一安德烈·卡帕西點評,DeepSeek-V3讓在有限算力預算內進行模型預訓練這件事變得容易。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度求索如何實現“花小錢辦大事”?它是否走出了大模型發展的一條新路?a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          降低模型推理成本a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度求索一直是國內AI版圖上位置相對獨特的一家——它是唯一沒有做2C(面向個人消費者)應用的公司,選擇開源路線,至今沒有融過資。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          去年5月,深度求索發布DeepSeek-V2,以其創新的模型架構和史無前例的性價比爆火。模型推理成本被降至每百萬Tokens(大模型用來表示自然語言文本的單位)僅1元錢,約等于開源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引發字節、阿里、百度等企業的模型降價潮。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          個中關節在于,DeepSeek提出的MLA(多頭潛在注意力機制)架構和DeepSeekMoESparse(采用稀疏結構的混合專家模型)結構,大幅降低了模型的計算量和顯存占用,實現了高效推理和經濟高效的訓練。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          簡單來說,模型壓縮、專家并行訓練、FP8混合精度訓練、數據蒸餾與算法優化等一系列創新技術大幅降低了V3模型成本。作為新興的低精度訓練方法,FP8技術通過減少數據表示所需的位數,顯著降低了內存占用和計算需求。據報道,目前,谷歌等已將這項技術引入模型訓練與推理中。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度科技研究院院長張孝榮在接受媒體采訪時說,DeepSeek的“出圈”是對其在大模型技術上的突破和創新的認可,其通過優化算法和工程實踐,實現高性能與低成本的平衡。DeepSeek為整個行業的發展注入活力,也對大模型的技術路徑和工程實踐產生積極影響,推動高效訓練、模型輕量化和工程優化。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          有業內人士分析,V3在架構創新、訓練效率和推理性能方面展現巨大潛力,尤其在成本和性能的平衡方面作出重要貢獻。不過,與此同時,也仍有許多挑戰需要解決,如需進一步擴展上下文長度、優化多模態數據處理等。未來的研究方向包括提升模型的推理速度、完善更高效的硬件架構設計,以及增強多模態學習和生成能力。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不堆算力創新算法a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          大參數、大算力、大投入,這條已經被驗證行之有效的ChatGPT路徑,實則是絕大部分創業公司難以承受之重。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          據報道,仍處于研發過程中的GPT-5,已進行過至少兩輪訓練,每輪訓練耗時數月,一輪計算成本接近5億美元。一年半過去,GPT-5仍未問世。這意味著,新一代通用大模型的訓練成本已達到十多億美元甚至更高。未來這一數字可能持續攀升。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          規模定律(Scaling law)是指在訓練大模型時,數據量、參數量和計算資源越多,訓練出的模型能力和效果越好。然而,一段時間以來,行業對規模定律可持續性的疑問不絕于耳。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          V3的出現提供了新的解法。“Scaling Law不只停留在預訓練階段,而是往后訓練,尤其是注重推理領域的后訓練集、強化學習等領域擴展。”智源研究院副院長兼總工程師林詠華接受科技日報記者采訪時說,這一點在國外以OpenAI o1發布為標志,國內則有DeepSeek使用強化學習訓練發布DeepSeek R1這個具有很強挖掘和激活能力的模型。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在林詠華看來,V3的發布,也印證了利用R1可以很好進行能力提升。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          行業相關探索還有很多,如Kimi將強化學習用到更多搜索場景,發布以邏輯思考和深度思考為核心功能的數學模型K0-math;螞蟻技術研究院建立強化學習實驗室,圍繞如何在后訓練及強化學習上進行更多模型能力的探索。林詠華期待,未來不僅是靠堆砌更多算力、參數和數據,而是靠真正的算法創新,持續在后訓練階段幫助模型提升基礎能力。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          值得注意的是,“省錢模式開啟”并不意味著算力式微。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          V3發布后,360集團創始人周鴻祎發文稱贊“DeepSeek的進步對推動中國AI產業發展是極大利好”,但他也認為,這并非說中國AI發展不需要高端算力芯片。囤顯卡建算力集群依舊必要,因為目前預訓練算力需求或許沒那么大,但像慢思考這類復雜推理模型對推理算力需求大,文生圖、文生視頻的應用也需消耗大量算力資源。巨頭們提供AI云服務,構建龐大算力基礎必不可少,這與 DeepSeek 降低訓練算力需求是兩回事,兩者并不矛盾。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一位行業專家在接受記者采訪時認為,2025年,大模型行業會進一步收斂,這種收斂既包括技術層面,也包括廠商層面。進入“百模大戰”后期,要進一步提高模型計算效率,降低推理成本,對計算的架構分布、利用效率等都提出更為精細化的要求。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          “燒錢”不是唯一邏輯a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度求索創始人梁文鋒在金融行業征戰已久。他成立的幻方量化早在2019年就開始大手筆投入深度學習訓練平臺。2023年7月,梁文鋒創立深度求索,專注AI大模型的研究和開發。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          據報道,包括梁文鋒在內,深度求索僅有139名工程師和研究人員。在外界看來,這是一支“神秘的東方力量”。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          但在一次采訪中,梁文鋒曾透露,深度求索并沒有什么高深莫測的奇才,團隊都是國內頂尖高校的應屆畢業生,沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。他特別提及,“V2模型沒有海外回來的人,都是本土的”。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          他也曾在訪談中說,過去30多年的IT浪潮,中國基本上扮演的是追隨者角色,“隨著經濟的發展,中國也應該逐步成為技術創新的主要貢獻者”。如今,V3的橫空出世貢獻了一個更高效率、更低成本的大模型發展樣本,也讓AI行業看到一種可能:雖然訓練大模型依然需要大規模顯卡集群,但“燒錢”不是行業唯一的邏輯,也并不是誰燒錢多,誰就注定贏得一切。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對此,周鴻祎評論道,V3用2000塊卡做到了萬卡集群才能做到的事。用這種極致訓練方法訓練專業大模型,算力成本會進一步降低,促使中國AI在專業、垂直、場景、行業大模型上更快普及。a5M流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:深度求索大模型:“花小錢辦大事”http://m.lensthegame.com/show-2-10150-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 快手年貨節促消費,近2.2萬主播商品交易總額增速超一倍

          下一篇: 科技讓環保執法有力度有溫度

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 亚洲国产一区在线观看| 一区二区高清在线| 人妻体内射精一区二区三四| 无码人妻一区二区三区一| 久久国产精品无码一区二区三区| 亚洲国产一区二区三区| 一区二区无码免费视频网站| 亚洲一区精品无码| 手机看片一区二区| 日韩免费无码一区二区三区| 一本AV高清一区二区三区| 国产亚洲一区二区手机在线观看| 国产aⅴ一区二区| 日韩AV无码一区二区三区不卡毛片| 精品女同一区二区三区在线 | 国产免费一区二区三区不卡| 国模丽丽啪啪一区二区| 日韩有码一区二区| 无码AV中文一区二区三区| 无码精品人妻一区二区三区人妻斩 | 国产福利电影一区二区三区久久老子无码午夜伦不 | 天海翼一区二区三区高清视频| 国产在线精品一区二区夜色| 精品无码国产一区二区三区51安| 99精品高清视频一区二区| 麻豆国产在线不卡一区二区 | 国产精品福利区一区二区三区四区| 三上悠亚精品一区二区久久| 武侠古典一区二区三区中文| 麻豆aⅴ精品无码一区二区| 久久99精品免费一区二区| 精品国产一区二区三区在线| 精品人伦一区二区三区潘金莲| 中文字幕一区二区区免| 亚洲福利视频一区二区| 国产高清视频一区二区| 国产精品538一区二区在线| 无码一区二区三区在线| 国产一区二区三区免费看| 国产一区在线观看免费| 日本一区二区三区免费高清在线|