設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          “喂”給人工智能的真實數據終將耗盡,合成數據能否讓AI模型精確可靠?

          2025-01-22 09:34:38 來源: 中國科技網

          人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿足AI的“胃口”,科技行業正轉向使用合成數據。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          澳大利亞“對話”網站在本月稍早時間報道中指出,合成數據具有諸多優勢,但過度依賴合成數據也可能削弱AI的精確性和可靠性。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          合成數據應運而生8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          以往,科技公司主要依賴真實數據來構建、訓練和改進AI模型。真實數據是指由人類創建的文本、視頻和圖像。它們通過調查、實驗、觀察或挖掘網站和社交媒體等途徑被收集而來。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          真實數據因蘊含真實事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關的內容,甚至潛藏嚴重偏見,導致生成式AI模型在某些情況下創建的圖像僅展示男性或白人形象。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          但真實數據日益匱乏,因為人類生成數據的速度趕不上AI不斷增長的需求。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          美國開放人工智能研究中心聯合創始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱,AI行業已觸及他所稱的“數據峰值”,AI的訓練數據如同化石燃料一樣面臨著耗盡的危機。此外,有研究預測,到2026年,ChatGPT等大型語言模型的訓練將耗盡互聯網上所有可用文本數據,屆時將沒有新的真實數據可供使用。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          為給AI提供充足的“養分”,一種由算法生成的、模仿真實世界情況的數據——合成數據應運而生。合成數據是在數字世界中創造的,而非從現實世界收集或測量而來。它可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          從理論上來說,合成數據為訓練AI模型提供了一種經濟高效且快捷的解決方案。它有效解決了AI訓練使用真實數據時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數據等敏感信息時。更重要的是,與真實數據不同,合成數據在理論上可以無限供應。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          研究機構高德納公司估計,2024年AI及分析項目使用的數據中,約60%是合成數據。到2030年,AI模型使用的絕大部分數據將是由AI生成的合成數據。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          科技公司來者不拒8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          事實上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業和初創企業,已經開始廣泛使用合成數據來訓練其AI模型。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數據攜手真實數據訓練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數據,開發出其性能最優異的AI系統之一“Claude 3.5 Sonnet”。蘋果自研AI系統Apple Intelligence,在預訓練階段,也大量使用了合成數據。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          隨著科技公司對合成數據的需求與日俱增,生產合成數據的工具也接踵而至。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          英偉達公司發布的3D仿真數據生成引擎Omniverse Replicator,能夠生成合成數據,用于自動駕駛汽車和機器人訓練。去年6月,英偉達開源了Nemotron-4340b系列模型,開發者可使用該模型生成合成數據,用于訓練大型語言模型,以應用于醫療保健、金融、制造、零售等行業。在醫療、金融等專業領域,該模型能夠根據特定需求生成高質量的合成數據,幫助構建更為精準的行業專屬模型。微軟推出的開源合成數據工具Synthetic Data Showcase則旨在通過生成合成數據和用戶界面,實現隱私保護的數據共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數十萬張自動標記的合成圖像。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數據的成本。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          過度依賴風險難測8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          盡管合成數據暫時解決了AI訓練的燃眉之急,但它也并非盡善盡美。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一個關鍵問題在于:當AI模型過于依賴合成數據時,它們可能會“崩潰”。它們會產生更多“幻覺”,編造看似合理可信但實際上并不存在的信息。而且,AI模型的質量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數據出現了一些拼寫錯誤,利用這些充滿了錯誤的數據訓練其他模型,這些AI模型必定會“以訛傳訛”,導致更大的錯誤。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,合成數據也存在過于簡單化的風險。它可能缺乏真實數據集蘊含的細節和多樣性,這可能導致在其上訓練的AI模型的輸出也過于簡單,缺乏實用性。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          為解決這些問題,國際標準化組織需要著手創建強大的系統,來跟蹤和驗證AI訓練數據。此外,AI系統可以配備元數據追蹤功能,讓用戶或系統能對合成數據進行溯源。人類也需要在AI模型的整個訓練過程中對合成數據進行監督,以確保其高質量且符合道德標準。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          AI的未來在很大程度上取決于數據的質量,合成數據將在克服數據短缺方面發揮越來越重要的作用。對合成數據的使用,人們必須保持謹慎態度,盡量減少錯誤,確保其作為真實數據的可靠補充,從而保障AI系統的準確性和可信度。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿足AI的“胃口”,科技行業正轉向使用合成數據。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          澳大利亞“對話”網站在本月稍早時間報道中指出,合成數據具有諸多優勢,但過度依賴合成數據也可能削弱AI的精確性和可靠性。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          合成數據應運而生8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          以往,科技公司主要依賴真實數據來構建、訓練和改進AI模型。真實數據是指由人類創建的文本、視頻和圖像。它們通過調查、實驗、觀察或挖掘網站和社交媒體等途徑被收集而來。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          真實數據因蘊含真實事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關的內容,甚至潛藏嚴重偏見,導致生成式AI模型在某些情況下創建的圖像僅展示男性或白人形象。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          但真實數據日益匱乏,因為人類生成數據的速度趕不上AI不斷增長的需求。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          美國開放人工智能研究中心聯合創始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱,AI行業已觸及他所稱的“數據峰值”,AI的訓練數據如同化石燃料一樣面臨著耗盡的危機。此外,有研究預測,到2026年,ChatGPT等大型語言模型的訓練將耗盡互聯網上所有可用文本數據,屆時將沒有新的真實數據可供使用。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          為給AI提供充足的“養分”,一種由算法生成的、模仿真實世界情況的數據——合成數據應運而生。合成數據是在數字世界中創造的,而非從現實世界收集或測量而來。它可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          從理論上來說,合成數據為訓練AI模型提供了一種經濟高效且快捷的解決方案。它有效解決了AI訓練使用真實數據時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數據等敏感信息時。更重要的是,與真實數據不同,合成數據在理論上可以無限供應。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          研究機構高德納公司估計,2024年AI及分析項目使用的數據中,約60%是合成數據。到2030年,AI模型使用的絕大部分數據將是由AI生成的合成數據。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          科技公司來者不拒8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          事實上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業和初創企業,已經開始廣泛使用合成數據來訓練其AI模型。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數據攜手真實數據訓練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數據,開發出其性能最優異的AI系統之一“Claude 3.5 Sonnet”。蘋果自研AI系統Apple Intelligence,在預訓練階段,也大量使用了合成數據。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          隨著科技公司對合成數據的需求與日俱增,生產合成數據的工具也接踵而至。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          英偉達公司發布的3D仿真數據生成引擎Omniverse Replicator,能夠生成合成數據,用于自動駕駛汽車和機器人訓練。去年6月,英偉達開源了Nemotron-4340b系列模型,開發者可使用該模型生成合成數據,用于訓練大型語言模型,以應用于醫療保健、金融、制造、零售等行業。在醫療、金融等專業領域,該模型能夠根據特定需求生成高質量的合成數據,幫助構建更為精準的行業專屬模型。微軟推出的開源合成數據工具Synthetic Data Showcase則旨在通過生成合成數據和用戶界面,實現隱私保護的數據共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數十萬張自動標記的合成圖像。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數據的成本。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          過度依賴風險難測8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          盡管合成數據暫時解決了AI訓練的燃眉之急,但它也并非盡善盡美。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一個關鍵問題在于:當AI模型過于依賴合成數據時,它們可能會“崩潰”。它們會產生更多“幻覺”,編造看似合理可信但實際上并不存在的信息。而且,AI模型的質量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數據出現了一些拼寫錯誤,利用這些充滿了錯誤的數據訓練其他模型,這些AI模型必定會“以訛傳訛”,導致更大的錯誤。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,合成數據也存在過于簡單化的風險。它可能缺乏真實數據集蘊含的細節和多樣性,這可能導致在其上訓練的AI模型的輸出也過于簡單,缺乏實用性。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          為解決這些問題,國際標準化組織需要著手創建強大的系統,來跟蹤和驗證AI訓練數據。此外,AI系統可以配備元數據追蹤功能,讓用戶或系統能對合成數據進行溯源。人類也需要在AI模型的整個訓練過程中對合成數據進行監督,以確保其高質量且符合道德標準。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          AI的未來在很大程度上取決于數據的質量,合成數據將在克服數據短缺方面發揮越來越重要的作用。對合成數據的使用,人們必須保持謹慎態度,盡量減少錯誤,確保其作為真實數據的可靠補充,從而保障AI系統的準確性和可信度。8wd流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:“喂”給人工智能的真實數據終將耗盡,合成數據能否讓AI模型精確可靠?http://m.lensthegame.com/show-2-10256-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 仿昆蟲微型機器人飛行長達15分鐘

          下一篇: 新型光學原子鐘比銫鐘精度高千倍

          熱門資訊

          • 明天氫能榮獲國家電網科技進步獎一等獎

            記者3月18日從安徽明天氫能科技股份有限公司(以下簡稱明天氫能)獲悉,國家電網近日向明天氫能及董事長王朝云分別授予科學技術進步獎一等獎,獲獎項目為

          • 數字化管理已在故宮廣泛應用

            在今天的故宮,工作人員使用的數字化辦公平臺名叫“內務輔”,這款應用的開發者,是與故宮博物院合作的釘釘(中國)信息技術有限公司(以下簡稱“釘釘”)。3月1

          • 創新中藥八子補腎膠囊抗衰老研究取得重大突破

            3月20日對于我國抗衰老研究是個特殊的日子,經過近3年的不懈努力,八子補腎膠囊抗衰老取得又一重大突破。挑戰人類生命極限是擺在全球科學家面前的重大

          • 專家:警惕常見睡眠認知誤區

            3月21日是世界睡眠日,中國主題為“健康睡眠 人人共享”。近日發布的《2023年中國居民睡眠白皮書》顯示,我國居民平均睡眠時長6.75小時,平均在零點后入

          • 探月工程四期鵲橋二號中繼星成功發射

            3月20日8時31分,探月工程四期鵲橋二號中繼星由長征八號遙三運載火箭在中國文昌航天發射場成功發射升空?;鸺w行24分鐘后,星箭分離,將鵲橋二號中繼星

          • GPU持續升級 如何應對算力“貧富差距”

            英偉達的GPU又升級了。3月19日,英偉達CEO黃仁勛發布了最新的B200算力芯片GPU,FP8精度下的訓練性能是上一代的2.5倍,FP4精度下的推理性能更是達到了上

          • iPhone可能在國內設備使用百度AI技術:集成于iOS 18

            有消息稱,iPhone在中國尋找本土生成式AI提供方,iPhone討論了在中國的設備中使用百度的人工智能技術。據《華爾街日報》報道,iPhone與百度進行了談判,以授權

          • iPhone邁入AI時代!曝國行版蘋果 16 AI效果由百度提供

            3月23日消息,據媒體報道,iPhone與百度公司已達成合作協議,百度將為蘋果內置的生成式人工智能大模型提供技術支持。報道指出,iPhone生成式人工智能大模型的

          • 限量搶!xiaomiCivi 4 Pro限定色真機照來了:3599元

            3月23日消息,xiaomi集團王曉雁曬出了xiaomiCivi 4 Pro限定色真機照,該系列共有三款顏色,分別是藍色、粉色和黑與白,定價為3599元,將于4月1日開始發售。據了

          • 首批未來產業創新成果驚艷亮相

            全球首臺無細胞蛋白質合成生物反應器、全球首臺全高溫超導托卡馬克裝置(洪荒70)、64比特超導量子計算機研發與產業化項目、深海可燃冰探采重載作業機

          • 人工智能大模型賦能企業科技創新研討會召開

            3月21日,人工智能大模型賦能企業科技創新研討會在廣州召開。中國知網在會議期間發布了專利大數據智能應用產品“AI Pat+”。據中國知網相關負責人介

          • 諾基亞手機“掉隊”帶來的啟示

            作為功能機時代的霸主,諾基亞手機曾經創造了巨大的輝煌,但也因錯失智能手機發展機遇而“掉隊”。近期,外媒Visual Capitalist統計了有史以來最暢銷的1

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 无码乱码av天堂一区二区| 精品亚洲综合在线第一区| 国产成人久久一区二区三区| 色噜噜一区二区三区| 国产午夜精品一区二区三区| 在线日产精品一区| 99久久精品国产免看国产一区| 日本一区二区在线播放| 国产肥熟女视频一区二区三区| 日韩一区二区电影| 国产美女视频一区| 亚洲一区日韩高清中文字幕亚洲 | 亚洲日韩一区二区一无码| 国产一区二区精品久久凹凸| 精品福利视频一区二区三区 | jazzjazz国产精品一区二区| 精品欧洲AV无码一区二区男男| 三上悠亚国产精品一区| 精品人妻一区二区三区四区在线| 中文字幕一区二区三区久久网站| 一区二区国产在线播放| 日韩社区一区二区三区| 免费高清av一区二区三区| 亚洲熟女综合色一区二区三区 | 中文无码精品一区二区三区| 国产剧情一区二区| 国产一区二区免费在线| 无码人妻精品一区二区三区久久久 | 国产自产对白一区| 久久免费精品一区二区| 久久久久久一区国产精品| 一区二区和激情视频| 波多野结衣在线观看一区| 亚洲一区二区久久| 国产精品一区二区久久不卡| 毛片一区二区三区| 在线精品一区二区三区电影| 亚洲色婷婷一区二区三区| 中文字幕在线精品视频入口一区| 国产91大片精品一区在线观看| 麻豆AV无码精品一区二区|