近日,美國媒體《紐約時報》把OpenAI及其投資方微軟公司告上法庭,指控二者未經授權就使用該媒體的數百萬篇文章來訓練人工智能大模型,要求被告銷毀相關數據并對媒體損失負責。今年1月,OpenAI對此做出辯訴,稱其訓練是合理使用,且它們已提供了退出的選擇。
這一爭端引發了公眾對于大模型訓練數據版權的關注。我國法律如何看待大模型訓練數據的版權情況,如何對大模型使用數據進行有效治理?2月初,記者采訪了相關專家。
訓練數據面臨較高法律風險
大模型的訓練數據究竟是哪兒來的?
去年,OpenAI首席執行官薩姆·奧爾特曼接受采訪時表示,他們花費了大量的精力整合不同來源的數據,包括開源信息數據庫、通過合作獲得的數據以及互聯網數據。但對于具體數據集的來源和細節,OpenAI尚未公開發布。
北京交通大學法學院副院長鄭飛告訴記者,生成式人工智能的數據來源可以分為外界生產數據和自生產數據。其中,外界生產數據來源包括公共數據、數字圖書館、信息庫、網絡信息等,來源方式包括自行收集、公共下載、第三方購買、爬取、模擬生產等。自生產數據則來源于生成式人工智能應用時產生的相關數據。
鄭飛指出,使用外界生產的數據通常面臨著較高的法律風險。目前,OpenAI已經被多次指控侵犯著作權。早在去年9月,美國作家協會就組織包括電視劇《權力的游戲》原著作者在內的17位作家向法院提起訴訟,指控OpenAI在未經許可的情況下批量復制了他們受版權保護的作品。
外界生產的數據中,還有一類是開源數據。那么使用開源數據是否意味著可以規避法律風險?
“開源通常意味著免費,但免費不意味著可以隨意使用。”在鄭飛看來,開源數據并不意味著可以完全規避風險。“許多開源數據雖然不存在著作權財產權保護問題,但會涉及署名權、修改權等人身權問題。以開源軟件為例,所有的開源許可證均要求保留版權聲明,在版權聲明中列明開源軟件的名稱、作者或版權所有者的姓名或名稱,以表明其身份。”鄭飛說。
鄭飛進一步解釋,按照我國著作權法的相關條款,如果使用者在使用開源軟件時不保留版權聲明,不表明作者身份,違反許可證要求,就可能侵犯開源軟件權利人的署名權。
北京智源人工智能研究院副院長兼總工程師林詠華也曾表示:“用于AI大模型訓練的開源數據必須是合法地從公開或可公開獲得的資源中收集的數據。”
侵權認定存在難點
針對生成式人工智能帶來的法律風險,各國都在陸續出臺、完善相關的政策法規。我國在去年7月公布的《生成式人工智能服務管理暫行辦法》中,明確提到生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,使用具有合法來源的數據和基礎模型;對于其中涉及知識產權的,不得侵害他人依法享有的知識產權。
與之配套的是我國關于知識產權的相關法律法規。鄭飛以著作權法為例向記者解釋:“當前我國著作權法第24條以列舉形式規定了合理使用的12種具體情形,以及‘其他情形’的兜底條款。生成式人工智能數據訓練難以歸屬為12種具體列明的合理使用情形。至于兜底條款,從司法實踐和法條解釋的角度來說,也缺乏判例和法理依據支持。因此,目前不侵害知識產權獲取數據的方式僅有授權,包括單獨授權、集體授權、開放授權等。”
當前大語言模型的訓練數據規模已達千億甚至萬億級別,但針對大模型訓練數據侵犯知識產權的判例卻寥寥無幾。鄭飛表示,大模型是新生事物,針對大模型的侵權認定仍存在較多難點。
首先是發現。生成式人工智能的侵權不同于傳統的網絡侵權。它生成的內容是向特定用戶提供的,本身并不具有直接公開性。因此,版權人如何發現自己的原創內容可能被大模型訓練所使用,是首要問題。
其次是舉證。大模型輸出的內容是經過深度學習后輸出的內容。這是機器內部的行為,具有一定的隱蔽性。對于版權人來說,難點是如何找到有力的證據,證明自己的原創內容被運用于訓練AI。
最后是比例。相比于大模型訓練數據侵犯知識產權,人們更為熟知的是一些小說作者抄襲其他書籍的案例。這些案例中,無一例外提到了抄襲內容比例。因此,對大模型侵權的認定,同樣也需要證明兩者之間的相似程度。
《紐約時報》訴OpenAI侵權案中,列出了多達100個證據,證明ChatGPT輸出內容與《紐約時報》新聞內容高度相似。因此,這也被一些人認為是“迄今為止指控生成式人工智能構成侵權的最佳案例”。
利益平衡是關鍵
面對生成式人工智能帶來的種種侵權風險,如何借助法律進行有效治理?專家認為,有幾種常見的治理途徑。
一是制定新的侵權責任法律。近年來,人工智能侵權責任立法不斷被提及。事實上,不只人工智能沖擊著現有侵權責任法,區塊鏈、元宇宙也普遍面臨新的侵權責任問題。“這一解決途徑也存在問題。因為專門立法周期較長,難以配適日新月異的數字技術發展速度。”鄭飛說。
二是創設單行監管條例。鄭飛介紹,國家網信辦自創設以來,就承擔著監管職能,并不斷根據技術發展動向及時進行單行條例立法。“特別是近年來在互聯網算法、深度合成、推薦算法等方面都發布了不同程度的監管條例,為互聯網行業合規經營設置了主要依據。”
其他方式還包括,在已有的侵權責任法律體系中添加關于人工智能責任的相關條款,為人工智能設計者和提供者添加特殊的條款來進行強調和補足;對現在已有的條款進行解釋等。“就AI技術的發展水平及其當下立法技術成熟度而言,采取‘傳統法律修正’模式是一種可行的方式。”鄭飛說。
需要注意的是,對于新興技術,法律治理的目的并不在于“禁止”,而是在于推動技術的合規發展、合法使用。北京大學法學院教授張平曾指出,我國目前的生成式人工智能技術創新還處在初級階段,法律法規的制定應當給科技創新留有一定的發展空間,需要采取開放包容的規范原則。
大模型想要更“聰明”,就必須通過大量數據來強化學習。因此,如何平衡各方利益、尋求合作共贏是關鍵。正如鄭飛所說:“人工智能訓練數據合法性問題,本質上是個人利益與公共利益沖突的體現。如果缺少利益平衡原則,在利益分成時容易產生分歧。”
鄭飛提出,版權集團或版權的集體管理組織可以通過集體授權的方式有效解決訓練數據的權利許可問題,也可以通過知識共享許可協議搭建開源數據庫,為大模型訓練方提供權利許可便利。大模型訓練方則可以為版權方提供更加優質、低費用的生成式人工智能接入服務,推動出版行業升級。
目前,大模型方正在與出版行業積極尋求合作。有消息稱,OpenAI正在與數十家出版商洽談內容授權協議。去年12月,OpenAI宣布與德國媒體巨頭阿克塞爾·施普林格達成了“里程碑式”合作。根據協議,OpenAI將付費使用施普林格旗下出版物的內容,施普林格將提供其媒體品牌的內容,作為OpenAI大型語言模型的訓練數據。
近日,美國媒體《紐約時報》把OpenAI及其投資方微軟公司告上法庭,指控二者未經授權就使用該媒體的數百萬篇文章來訓練人工智能大模型,要求被告銷毀相關數據并對媒體損失負責。今年1月,OpenAI對此做出辯訴,稱其訓練是合理使用,且它們已提供了退出的選擇。
這一爭端引發了公眾對于大模型訓練數據版權的關注。我國法律如何看待大模型訓練數據的版權情況,如何對大模型使用數據進行有效治理?2月初,記者采訪了相關專家。
訓練數據面臨較高法律風險
大模型的訓練數據究竟是哪兒來的?
去年,OpenAI首席執行官薩姆·奧爾特曼接受采訪時表示,他們花費了大量的精力整合不同來源的數據,包括開源信息數據庫、通過合作獲得的數據以及互聯網數據。但對于具體數據集的來源和細節,OpenAI尚未公開發布。
北京交通大學法學院副院長鄭飛告訴記者,生成式人工智能的數據來源可以分為外界生產數據和自生產數據。其中,外界生產數據來源包括公共數據、數字圖書館、信息庫、網絡信息等,來源方式包括自行收集、公共下載、第三方購買、爬取、模擬生產等。自生產數據則來源于生成式人工智能應用時產生的相關數據。
鄭飛指出,使用外界生產的數據通常面臨著較高的法律風險。目前,OpenAI已經被多次指控侵犯著作權。早在去年9月,美國作家協會就組織包括電視劇《權力的游戲》原著作者在內的17位作家向法院提起訴訟,指控OpenAI在未經許可的情況下批量復制了他們受版權保護的作品。
外界生產的數據中,還有一類是開源數據。那么使用開源數據是否意味著可以規避法律風險?
“開源通常意味著免費,但免費不意味著可以隨意使用。”在鄭飛看來,開源數據并不意味著可以完全規避風險。“許多開源數據雖然不存在著作權財產權保護問題,但會涉及署名權、修改權等人身權問題。以開源軟件為例,所有的開源許可證均要求保留版權聲明,在版權聲明中列明開源軟件的名稱、作者或版權所有者的姓名或名稱,以表明其身份。”鄭飛說。
鄭飛進一步解釋,按照我國著作權法的相關條款,如果使用者在使用開源軟件時不保留版權聲明,不表明作者身份,違反許可證要求,就可能侵犯開源軟件權利人的署名權。
北京智源人工智能研究院副院長兼總工程師林詠華也曾表示:“用于AI大模型訓練的開源數據必須是合法地從公開或可公開獲得的資源中收集的數據。”
侵權認定存在難點
針對生成式人工智能帶來的法律風險,各國都在陸續出臺、完善相關的政策法規。我國在去年7月公布的《生成式人工智能服務管理暫行辦法》中,明確提到生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,使用具有合法來源的數據和基礎模型;對于其中涉及知識產權的,不得侵害他人依法享有的知識產權。
與之配套的是我國關于知識產權的相關法律法規。鄭飛以著作權法為例向記者解釋:“當前我國著作權法第24條以列舉形式規定了合理使用的12種具體情形,以及‘其他情形’的兜底條款。生成式人工智能數據訓練難以歸屬為12種具體列明的合理使用情形。至于兜底條款,從司法實踐和法條解釋的角度來說,也缺乏判例和法理依據支持。因此,目前不侵害知識產權獲取數據的方式僅有授權,包括單獨授權、集體授權、開放授權等。”
當前大語言模型的訓練數據規模已達千億甚至萬億級別,但針對大模型訓練數據侵犯知識產權的判例卻寥寥無幾。鄭飛表示,大模型是新生事物,針對大模型的侵權認定仍存在較多難點。
首先是發現。生成式人工智能的侵權不同于傳統的網絡侵權。它生成的內容是向特定用戶提供的,本身并不具有直接公開性。因此,版權人如何發現自己的原創內容可能被大模型訓練所使用,是首要問題。
其次是舉證。大模型輸出的內容是經過深度學習后輸出的內容。這是機器內部的行為,具有一定的隱蔽性。對于版權人來說,難點是如何找到有力的證據,證明自己的原創內容被運用于訓練AI。
最后是比例。相比于大模型訓練數據侵犯知識產權,人們更為熟知的是一些小說作者抄襲其他書籍的案例。這些案例中,無一例外提到了抄襲內容比例。因此,對大模型侵權的認定,同樣也需要證明兩者之間的相似程度。
《紐約時報》訴OpenAI侵權案中,列出了多達100個證據,證明ChatGPT輸出內容與《紐約時報》新聞內容高度相似。因此,這也被一些人認為是“迄今為止指控生成式人工智能構成侵權的最佳案例”。
利益平衡是關鍵
面對生成式人工智能帶來的種種侵權風險,如何借助法律進行有效治理?專家認為,有幾種常見的治理途徑。
一是制定新的侵權責任法律。近年來,人工智能侵權責任立法不斷被提及。事實上,不只人工智能沖擊著現有侵權責任法,區塊鏈、元宇宙也普遍面臨新的侵權責任問題。“這一解決途徑也存在問題。因為專門立法周期較長,難以配適日新月異的數字技術發展速度。”鄭飛說。
二是創設單行監管條例。鄭飛介紹,國家網信辦自創設以來,就承擔著監管職能,并不斷根據技術發展動向及時進行單行條例立法。“特別是近年來在互聯網算法、深度合成、推薦算法等方面都發布了不同程度的監管條例,為互聯網行業合規經營設置了主要依據。”
其他方式還包括,在已有的侵權責任法律體系中添加關于人工智能責任的相關條款,為人工智能設計者和提供者添加特殊的條款來進行強調和補足;對現在已有的條款進行解釋等。“就AI技術的發展水平及其當下立法技術成熟度而言,采取‘傳統法律修正’模式是一種可行的方式。”鄭飛說。
需要注意的是,對于新興技術,法律治理的目的并不在于“禁止”,而是在于推動技術的合規發展、合法使用。北京大學法學院教授張平曾指出,我國目前的生成式人工智能技術創新還處在初級階段,法律法規的制定應當給科技創新留有一定的發展空間,需要采取開放包容的規范原則。
大模型想要更“聰明”,就必須通過大量數據來強化學習。因此,如何平衡各方利益、尋求合作共贏是關鍵。正如鄭飛所說:“人工智能訓練數據合法性問題,本質上是個人利益與公共利益沖突的體現。如果缺少利益平衡原則,在利益分成時容易產生分歧。”
鄭飛提出,版權集團或版權的集體管理組織可以通過集體授權的方式有效解決訓練數據的權利許可問題,也可以通過知識共享許可協議搭建開源數據庫,為大模型訓練方提供權利許可便利。大模型訓練方則可以為版權方提供更加優質、低費用的生成式人工智能接入服務,推動出版行業升級。
目前,大模型方正在與出版行業積極尋求合作。有消息稱,OpenAI正在與數十家出版商洽談內容授權協議。去年12月,OpenAI宣布與德國媒體巨頭阿克塞爾·施普林格達成了“里程碑式”合作。根據協議,OpenAI將付費使用施普林格旗下出版物的內容,施普林格將提供其媒體品牌的內容,作為OpenAI大型語言模型的訓練數據。
本文鏈接:“投喂”大模型如何規范授權http://m.lensthegame.com/show-2-2861-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 以科技筑起安全“防火墻”
下一篇: 黑洞成恒星誕生與星系形成助推器