網絡抓取數據用于生成式AI訓練？英國ICO：合法利益是可行關鍵

2024-01-25 16:18:52 來源：

觀看：288

21世紀經濟報道記者鄭雪北京報道

海量數據、算力和算法，使得生成式人工智能侃侃而談、無所不知。數據來源方面，不少企業的數據源于公開網絡抓取，也因此產生了相關糾紛，如OpenAI因數據抓取引發多起糾紛。糾紛背后，涉及網絡抓取合法性問題，即通過網絡抓取數據訓練而成的生成式人工智能模型，是否具有法律依據？

今年1月，英國ICO（theUK Information Commissioner's Office，英國信息專員辦公室）宣布啟動生成式人工智能系列研究，探討數據保護法如何適用于生成式人工智能模型的開發和使用。通過網絡抓取數據訓練而成的生成式人工智能模型是否存在法律依據？首次研究便回應了這一問題。

對于人工智能企業而言，何以訓練數據如此重要？

數據，尤其是高質量的數據，成為人工智能發展關鍵。生成式人工智能模型開發的第一步，便是收集和預處理訓練數據，通過數據訓練模型，結合微調，以便在特定環境中部署。如GPT-3的數據量為45TB。同時，數據又是稀缺的，根據Epoch的研究預測，數據耗盡最早可能出現于 2026 年。此外，AIGC廠商數據來源大致分為三個面向，公開渠道爬取的數據便是其中之一。

生成式人工智能的訓練數據來自何處？

ICO指出，大多數生成式人工智能開發人員都通過可公開訪問的來源獲取數據，或直接從網絡抓取，或間接從擁有數據的第三方獲取，或兩者結合。從互聯網中抓取的信息包括個人數據，還包括泄露的信息等。

基于網絡抓取數據訓練而成的生成式人工智能的合法基礎如何判定？

ICO指出，公開抓取數據訓練而成的生成人工智能模型，合法利益可以成為其法律依據，但前提是模型開發者通過三部分測試（three-part test）：

一是，目的測試，即是否存在有效利益。開發者的利益涉及商業利益以及更廣泛的社會利益，需要對模型的使用進行適當控制。

二是，必要性測試，即鑒于目的，網絡抓取是否必要。ICO理解，目前大多數生成式人工智能，只能使用通過大規模抓取獲得的數據量進行訓練。

三是，平衡測試，即評估對個人的影響，并確定是否侵犯了個人的利益、權利和自由（此處重點關注對個人的潛在影響）。通過網絡抓取收集數據是一種“隱形處理”活動，在此情況下，公眾可能會失去對個人數據處理的控制權，或者無法行使法律所授予的相關權利。ICO指出，隱形處理和人工智能相關處理都被視為高風險活動，需要在其指導下進行DPIA（數據保護影響評估）。

可以看到，生成式人工智能模型正逐漸引發風險和危害，可能是因為收集的訓練數據，也可能和模型使用相關。相關風險又該如何緩解？

ICO列明三種情況：

初始開發人員部署的生成式AI模型：部署在自己的平臺時，期望能夠完全控制模型的生成和使用。

由第三方通過API部署的生成式AI模型：在此情況下，初始開發者可以部署特定技術（例如輸出過濾器等）或通過組織予以解決。如對API接口的限制查詢、對模型使用進行監控、通過合同予以限制等。

提供給第三方的生成式人工智能模型：這種情況下，初始開發者會將底層模型副本或大量細節（如模型權重、起始代碼等）提供第三方，客戶選擇運行自己研發的生成人工智能模型。ICO指出，合同控制措施可以減輕這種風險，但仍需實踐證明上述措施可行。

值得注意的是，此次是ICO關于生成式人工智能開發和使用的新想法，不應將其解釋為數據處理需要符合的法律規定。

數據抓取從來都不是一個新問題，數據抓取及合法性邊界是權益衡量的結果，同時需要具體分析（case by case），對于新興的人工智能企業來說亦如此。

本文鏈接：網絡抓取數據用于生成式AI訓練？英國ICO：合法利益是可行關鍵http://m.lensthegame.com/show-2-2370-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：首屆“群體協同與自主”創新發展論壇在京舉行

下一篇：長三角兩會｜發展“新質生產力”要開放開竅，張燕生對浙江的六個觀察

網絡抓取數據用于生成式AI訓練？英國ICO：合法利益是可行關鍵

熱門資訊

推薦資訊

科技最熱文章