設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          網絡抓取數據用于生成式AI訓練?英國ICO:合法利益是可行關鍵

          2024-01-25 16:18:52 來源:

          21世紀經濟報道 記者鄭雪 北京報道hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          海量數據、算力和算法,使得生成式人工智能侃侃而談、無所不知。數據來源方面,不少企業的數據源于公開網絡抓取,也因此產生了相關糾紛,如OpenAI因數據抓取引發多起糾紛。糾紛背后,涉及網絡抓取合法性問題,即通過網絡抓取數據訓練而成的生成式人工智能模型,是否具有法律依據?hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          今年1月,英國ICO(theUK Information Commissioner's Office,英國信息專員辦公室)宣布啟動生成式人工智能系列研究,探討數據保護法如何適用于生成式人工智能模型的開發和使用。通過網絡抓取數據訓練而成的生成式人工智能模型是否存在法律依據?首次研究便回應了這一問題。hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對于人工智能企業而言,何以訓練數據如此重要?hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          數據,尤其是高質量的數據,成為人工智能發展關鍵。生成式人工智能模型開發的第一步,便是收集和預處理訓練數據,通過數據訓練模型,結合微調,以便在特定環境中部署。如GPT-3的數據量為45TB。同時,數據又是稀缺的,根據Epoch的研究預測,數據耗盡最早可能出現于 2026 年。此外,AIGC廠商數據來源大致分為三個面向,公開渠道爬取的數據便是其中之一。hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          生成式人工智能的訓練數據來自何處?hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ICO指出,大多數生成式人工智能開發人員都通過可公開訪問的來源獲取數據,或直接從網絡抓取,或間接從擁有數據的第三方獲取,或兩者結合。從互聯網中抓取的信息包括個人數據,還包括泄露的信息等。hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          基于網絡抓取數據訓練而成的生成式人工智能的合法基礎如何判定?hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ICO指出,公開抓取數據訓練而成的生成人工智能模型,合法利益可以成為其法律依據,但前提是模型開發者通過三部分測試(three-part test):hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一是,目的測試,即是否存在有效利益。開發者的利益涉及商業利益以及更廣泛的社會利益,需要對模型的使用進行適當控制。hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          二是,必要性測試,即鑒于目的,網絡抓取是否必要。ICO理解,目前大多數生成式人工智能,只能使用通過大規模抓取獲得的數據量進行訓練。hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          三是,平衡測試,即評估對個人的影響,并確定是否侵犯了個人的利益、權利和自由(此處重點關注對個人的潛在影響)。通過網絡抓取收集數據是一種“隱形處理”活動,在此情況下,公眾可能會失去對個人數據處理的控制權,或者無法行使法律所授予的相關權利。ICO指出,隱形處理和人工智能相關處理都被視為高風險活動,需要在其指導下進行DPIA(數據保護影響評估)。hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          可以看到,生成式人工智能模型正逐漸引發風險和危害,可能是因為收集的訓練數據,也可能和模型使用相關。相關風險又該如何緩解?hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ICO列明三種情況:hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          初始開發人員部署的生成式AI模型:部署在自己的平臺時,期望能夠完全控制模型的生成和使用hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          由第三方通過API部署的生成式AI模型:在此情況下,初始開發者可以部署特定技術(例如輸出過濾器等)或通過組織予以解決。如對API接口的限制查詢、對模型使用進行監控、通過合同予以限制等。hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          提供給第三方的生成式人工智能模型:這種情況下,初始開發者會將底層模型副本或大量細節(如模型權重、起始代碼等)提供第三方,客戶選擇運行自己研發的生成人工智能模型。ICO指出,合同控制措施可以減輕這種風險,但仍需實踐證明上述措施可行hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          值得注意的是,此次是ICO關于生成式人工智能開發和使用的新想法,不應將其解釋為數據處理需要符合的法律規定。hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          數據抓取從來都不是一個新問題,數據抓取及合法性邊界是權益衡量的結果,同時需要具體分析(case by case),對于新興的人工智能企業來說亦如此。hB3流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:網絡抓取數據用于生成式AI訓練?英國ICO:合法利益是可行關鍵http://m.lensthegame.com/show-2-2370-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 首屆“群體協同與自主”創新發展論壇在京舉行

          下一篇: 長三角兩會|發展“新質生產力”要開放開竅,張燕生對浙江的六個觀察

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 夜夜精品视频一区二区| 国产成人无码一区二区在线播放 | 久久影院亚洲一区| 日韩精品无码视频一区二区蜜桃| 久久久无码精品人妻一区| 国精产品一区一区三区免费视频 | 日韩伦理一区二区| 无码人妻精品一区二区三区夜夜嗨| 国产伦精品一区二区三区免.费| 久久无码人妻一区二区三区午夜| 亚洲av成人一区二区三区在线观看| 国内精品一区二区三区在线观看| 一区二区视频在线观看| 日本不卡一区二区三区视频| 国产一区二区高清在线播放| 精品女同一区二区三区在线| 天天视频一区二区三区| 男人的天堂av亚洲一区2区| 国产福利微拍精品一区二区| 亚洲国产精品一区二区久| 久久久精品人妻一区二区三区四| 中文字幕aⅴ人妻一区二区 | 亚洲熟妇AV一区二区三区浪潮| 久久精品国产一区二区三区肥胖| 国产精华液一区二区区别大吗 | 国产精品无码不卡一区二区三区 | 亚洲综合一区二区三区四区五区| 日韩人妻无码一区二区三区久久| 少妇特黄A一区二区三区| 无码aⅴ精品一区二区三区浪潮 | 精品亚洲AV无码一区二区| 亚洲成AV人片一区二区| 国产品无码一区二区三区在线蜜桃 | 国产91久久精品一区二区| 伦精品一区二区三区视频| 国精产品999一区二区三区有限| 多人伦精品一区二区三区视频| 激情爆乳一区二区三区| 中日av乱码一区二区三区乱码| 精品一区二区三区四区| 91精品福利一区二区|