設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          AI發展:訓練數據即將遭遇瓶頸

          2025-01-02 09:51:18 來源: 中國科技網

          得益于神經網絡規模的擴大以及海量數據的訓練,人工智能(AI)在過去10年間突飛猛進。“做大做強”的策略,在構建大型語言模型(LLM)上取得了顯著成果,ChatGPT就是一個典型的例子。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,《自然》《麻省理工科技評論》等多家雜志網站指出,AI擴展正逼近極限。一方面,AI“吞噬”著越來越多的能源;另一方面,滋養無數模型成長的傳統數據集,正被LLM開發人員過度開墾。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          訓練數據即將遭遇的瓶頸已悄然浮現。有研究機構預測,到2028年左右,用于訓練AI模型的數據集典型規模將達到公共在線文本總估計量的規模。換句話說,AI可能會在大約4年內耗盡訓練數據。與此同時,數據所有者(如報紙出版商)開始打擊對其內容的濫用行為,進一步收緊了訪問權限,這正在引發“數據共享”規模上的危機。為此,開發人員必須尋找變通之道。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          數據集供需失衡9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          過去10年間,LLM的發展顯示出了對數據的巨大需求。自2020年以來,用于訓練LLM的“標記”(或單詞)數量已增長100倍,從數百億增加到數萬億。一個常見的數據集RedPajama,包含數萬億個單詞。這些數據會被一些公司或研究人員抓取和清洗,成為訓練LLM的定制數據集。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,可用互聯網內容的增長速度出乎意料的緩慢。據估計,其年增長率不到10%,而AI訓練數據集的大小每年增長超過一倍。預測顯示,這兩條曲線將在2028年左右交匯。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          與此同時,內容供應商越來越多地加入軟件代碼或修改條款,阻止爬蟲及AI抓取其數據。在這些內容中,被明確標記為限制爬蟲訪問的數量,從2023年的不足3%猛增到了2024年的20%至33%之間。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          當前,圍繞AI訓練中數據使用的合法性,試圖為數據提供商爭取應有賠償的多起訴訟正在進行。2023年12月,《紐約時報》向OpenAI及其合作伙伴微軟提起了訴訟,指控其侵犯了版權;今年4月,紐約市Alden全球資本旗下的8家報紙聯合發起了一起類似的訴訟。對此,OpenAI表示,《紐約時報》的訴訟“毫無根據”。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          若法院最終站在內容提供商一方,支持其獲得經濟賠償,那么對于AI開發人員,尤其是那些資金緊張的學者而言,獲取所需數據無疑將變得更加艱難。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          新方法有待印證9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          數據匱乏對AI的傳統擴展策略構成了潛在挑戰。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          尋找更多數據的一個途徑是收集非公開數據,如社交媒體消息或視頻文字記錄。然而,這種做法的合法性尚存爭議。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一些公司選擇使用自己的數據來訓練AI模型,如Meta利用虛擬現實頭顯收集的音頻和圖像進行訓練。但各公司政策不同,包括Zoom在內的一些公司則明確表示不會使用客戶內容訓練AI。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          另一種選擇可能是專注于快速增長的專業數據集,如天文學或基因組學數據,但其對訓練LLM的可用性和實用性尚不清楚。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          如果AI接受除文本之外的多種類型的數據訓練,可能會為豐富數據的涌入打開閘門。Meta首席AI科學家勒丘恩強調,人類通過觀察物體而“吸收”的數據遠超用于訓練LLM的數據量,機器人形態的AI系統或許能從中獲取經驗。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,制造數據也是解決之道。一些AI公司付費讓人們生成訓練內容,或使用AI生成的合成數據來訓練AI。這已成為一個潛在的巨大數據源。然而,合成數據也存在問題,如遞歸循環可能鞏固錯誤、放大誤解,并降低學習質量。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          小模型更專更精9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          另一種策略是摒棄模型“越大越好”的開發觀念。一些開發者已在追求更高效、專注于單一任務的小型語言模型。這些模型需要更精細、更專業的數據以及更好的訓練技術。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          12月5日,OpenAI發布了新的OpenAI o1模型。盡管該公司未透露模型的規模或訓練數據集大小,但o1采用了新方法:在強化學習上投入更多時間,讓模型對每個回答進行更深入的思考。這標志著一種轉變,即從依賴大規模數據集進行預訓練,轉向更注重訓練和推理。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          當前,LLM可能已飽覽互聯網大部分內容,或許無需更多數據即可變得更智能。美國斯坦福大學一項研究表明,模型從多次讀取給定數據集中學到的內容,與從相同數量的唯一數據中學習到的內容一樣豐富。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          合成數據、專門數據集、多次讀取和自我反思等因素的結合,或將共同推動AI的進一步飛躍。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          得益于神經網絡規模的擴大以及海量數據的訓練,人工智能(AI)在過去10年間突飛猛進。“做大做強”的策略,在構建大型語言模型(LLM)上取得了顯著成果,ChatGPT就是一個典型的例子。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,《自然》《麻省理工科技評論》等多家雜志網站指出,AI擴展正逼近極限。一方面,AI“吞噬”著越來越多的能源;另一方面,滋養無數模型成長的傳統數據集,正被LLM開發人員過度開墾。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          訓練數據即將遭遇的瓶頸已悄然浮現。有研究機構預測,到2028年左右,用于訓練AI模型的數據集典型規模將達到公共在線文本總估計量的規模。換句話說,AI可能會在大約4年內耗盡訓練數據。與此同時,數據所有者(如報紙出版商)開始打擊對其內容的濫用行為,進一步收緊了訪問權限,這正在引發“數據共享”規模上的危機。為此,開發人員必須尋找變通之道。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          數據集供需失衡9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          過去10年間,LLM的發展顯示出了對數據的巨大需求。自2020年以來,用于訓練LLM的“標記”(或單詞)數量已增長100倍,從數百億增加到數萬億。一個常見的數據集RedPajama,包含數萬億個單詞。這些數據會被一些公司或研究人員抓取和清洗,成為訓練LLM的定制數據集。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,可用互聯網內容的增長速度出乎意料的緩慢。據估計,其年增長率不到10%,而AI訓練數據集的大小每年增長超過一倍。預測顯示,這兩條曲線將在2028年左右交匯。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          與此同時,內容供應商越來越多地加入軟件代碼或修改條款,阻止爬蟲及AI抓取其數據。在這些內容中,被明確標記為限制爬蟲訪問的數量,從2023年的不足3%猛增到了2024年的20%至33%之間。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          當前,圍繞AI訓練中數據使用的合法性,試圖為數據提供商爭取應有賠償的多起訴訟正在進行。2023年12月,《紐約時報》向OpenAI及其合作伙伴微軟提起了訴訟,指控其侵犯了版權;今年4月,紐約市Alden全球資本旗下的8家報紙聯合發起了一起類似的訴訟。對此,OpenAI表示,《紐約時報》的訴訟“毫無根據”。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          若法院最終站在內容提供商一方,支持其獲得經濟賠償,那么對于AI開發人員,尤其是那些資金緊張的學者而言,獲取所需數據無疑將變得更加艱難。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          新方法有待印證9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          數據匱乏對AI的傳統擴展策略構成了潛在挑戰。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          尋找更多數據的一個途徑是收集非公開數據,如社交媒體消息或視頻文字記錄。然而,這種做法的合法性尚存爭議。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一些公司選擇使用自己的數據來訓練AI模型,如Meta利用虛擬現實頭顯收集的音頻和圖像進行訓練。但各公司政策不同,包括Zoom在內的一些公司則明確表示不會使用客戶內容訓練AI。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          另一種選擇可能是專注于快速增長的專業數據集,如天文學或基因組學數據,但其對訓練LLM的可用性和實用性尚不清楚。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          如果AI接受除文本之外的多種類型的數據訓練,可能會為豐富數據的涌入打開閘門。Meta首席AI科學家勒丘恩強調,人類通過觀察物體而“吸收”的數據遠超用于訓練LLM的數據量,機器人形態的AI系統或許能從中獲取經驗。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,制造數據也是解決之道。一些AI公司付費讓人們生成訓練內容,或使用AI生成的合成數據來訓練AI。這已成為一個潛在的巨大數據源。然而,合成數據也存在問題,如遞歸循環可能鞏固錯誤、放大誤解,并降低學習質量。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          小模型更專更精9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          另一種策略是摒棄模型“越大越好”的開發觀念。一些開發者已在追求更高效、專注于單一任務的小型語言模型。這些模型需要更精細、更專業的數據以及更好的訓練技術。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          12月5日,OpenAI發布了新的OpenAI o1模型。盡管該公司未透露模型的規模或訓練數據集大小,但o1采用了新方法:在強化學習上投入更多時間,讓模型對每個回答進行更深入的思考。這標志著一種轉變,即從依賴大規模數據集進行預訓練,轉向更注重訓練和推理。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          當前,LLM可能已飽覽互聯網大部分內容,或許無需更多數據即可變得更智能。美國斯坦福大學一項研究表明,模型從多次讀取給定數據集中學到的內容,與從相同數量的唯一數據中學習到的內容一樣豐富。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          合成數據、專門數據集、多次讀取和自我反思等因素的結合,或將共同推動AI的進一步飛躍。9q7流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:AI發展:訓練數據即將遭遇瓶頸http://m.lensthegame.com/show-2-9987-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 商業氣象小衛星數據首次獲準進入我國氣象業務系統

          下一篇: 帕克探測器創人造物體“觸摸”太陽距離新紀錄

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 丰满岳乱妇一区二区三区| 精品人妻少妇一区二区| 亚洲一区二区精品视频| 亚洲中文字幕久久久一区| 久久亚洲色一区二区三区 | 亚洲一区二区女搞男| 精品国产免费观看一区| 亚洲av成人一区二区三区| 国产午夜精品免费一区二区三区 | 亚洲国产日韩一区高清在线| 精品少妇一区二区三区在线 | 久久4k岛国高清一区二区| 国产精品亚洲产品一区二区三区| 国产精品美女一区二区| 美日韩一区二区三区| 精品国产日韩亚洲一区91| 欧美av色香蕉一区二区蜜桃小说| 人妻无码一区二区三区AV| 91久久精品一区二区| 亚洲一区二区三区在线| 亚洲香蕉久久一区二区| 色狠狠色狠狠综合一区| 中文字幕无码不卡一区二区三区| 亚洲国产高清在线精品一区| 蜜桃臀无码内射一区二区三区| 午夜福利一区二区三区在线观看| 无码人妻精品一区二区在线视频 | 精品一区二区三人妻视频| 色噜噜狠狠一区二区| 国产精品无码一区二区在线观| 亚洲av日韩综合一区二区三区| 国产乱人伦精品一区二区在线观看| 国产乱码精品一区二区三区| 国产伦精品一区二区三区精品| 人成精品视频三区二区一区| 中文字幕Av一区乱码| 日韩一区二区三区无码影院| 亚洲AV无码一区二区乱子仑| 国产日韩综合一区二区性色AV| 精品久久久久一区二区三区| 国产激情з∠视频一区二区|