AI企業(yè)VS新聞出版機(jī)構(gòu)版權(quán)第一案:數(shù)據(jù)屬于誰?產(chǎn)業(yè)和保護(hù)最大公約數(shù)如何劃定?
21世紀(jì)經(jīng)濟(jì)報(bào)道記者鄭雪實(shí)習(xí)生張晨茜北京報(bào)道
進(jìn)入新的一年,人工智能開年大戲已拉開序幕。不久之前,《紐約時(shí)報(bào)》向曼哈頓聯(lián)邦法院提起訴訟,指控OpenAI和微軟未經(jīng)許可使用該報(bào)數(shù)百萬篇文章訓(xùn)練機(jī)器人。
“被告(指OpenAI和微軟,下同)……生成式人工智能(GenAI)工具依賴于大語言模型(LLMs),這些模型是通過復(fù)制和使用《紐約時(shí)報(bào)》的數(shù)百萬篇受版權(quán)保護(hù)的新聞文章、深入調(diào)查、評(píng)論文章、評(píng)論、操作指南等而建立的。……被告試圖在未經(jīng)許可或支付的情況下,利用《紐約時(shí)報(bào)》對(duì)其新聞業(yè)的巨大投資來構(gòu)建替代品?!?span style="display:none">ATn流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM
在人工智能企業(yè)發(fā)展過程中,其中數(shù)據(jù),尤其是高質(zhì)量的數(shù)據(jù),或者說是知識(shí),成為一項(xiàng)必不可少的競(jìng)爭(zhēng)要素。人工智能繁榮背后,數(shù)據(jù)知識(shí)產(chǎn)權(quán)相關(guān)問題成為AI發(fā)展隱憂。
《紐約時(shí)報(bào)》起訴書列舉的多個(gè)案例,似乎已經(jīng)從事實(shí)層面證實(shí)OpenAI、微軟未經(jīng)許可使用其報(bào)道作為訓(xùn)練數(shù)據(jù),同時(shí)輸出內(nèi)容構(gòu)成實(shí)質(zhì)性相似。在涉數(shù)據(jù)知識(shí)產(chǎn)權(quán)相關(guān)問題討論仍無定論和共識(shí)的背景下,這起訴訟意味著相關(guān)討論已進(jìn)入實(shí)質(zhì)探討層面。
這不是涉數(shù)據(jù)知識(shí)產(chǎn)權(quán)的第一期案例,也不會(huì)是最后一起案例。其中的關(guān)鍵在于,司法應(yīng)該如何在技術(shù)、產(chǎn)業(yè)發(fā)展和權(quán)利保護(hù)之間找到最大公約數(shù)?
《紐約時(shí)報(bào)》訴OpenAI、微軟“搭便車”
《紐約時(shí)報(bào)》和OpenAI、微軟的糾葛始于2023年4月。《紐約時(shí)報(bào)》聯(lián)系微軟和OpenAI,提出知識(shí)產(chǎn)權(quán)方面的擔(dān)憂,并探討了可能的友好解決方案,包括商業(yè)條款和技術(shù)保護(hù)措施,以便實(shí)現(xiàn)雙方實(shí)現(xiàn)互利的價(jià)值交換。
隨后,《紐約時(shí)報(bào)》更新服務(wù)條款,明確禁止使用其內(nèi)容進(jìn)行人工智能訓(xùn)練。隨后屏蔽了OpenAI的爬蟲程序GPTBot。
“這些努力未能產(chǎn)生解決方案?!逼鹪V書寫道,表示本訴訟旨在追究被告應(yīng)承擔(dān)的數(shù)十億美元的法定和實(shí)際損害賠償責(zé)任。
起訴書表示,微軟的BingChat(最近更名為“Copilot”)和OpenAI的ChatGPT,在未經(jīng)許可或付款的情況下,利用《紐約時(shí)報(bào)》對(duì)新聞業(yè)的巨額投資來制造替代產(chǎn)品,屬于搭便車行為。
《紐約時(shí)報(bào)》認(rèn)為,大模型的“幻覺”也被錯(cuò)誤地歸因于其。被告的模型錯(cuò)誤地將《紐約時(shí)報(bào)》事實(shí)上沒有發(fā)表的內(nèi)容歸于《紐約時(shí)報(bào)》,造成了商業(yè)和競(jìng)爭(zhēng)損害。
《紐約時(shí)報(bào)》并不認(rèn)可被告構(gòu)成“合理使用”。在它看來,被告的工具在未經(jīng)許可或授權(quán)的情況下提供相關(guān)內(nèi)容,削弱并損害了《紐約時(shí)報(bào)》與其讀者的關(guān)系,同時(shí)剝奪了時(shí)報(bào)的訂閱、許可、廣告和關(guān)聯(lián)收入。此外,GenAI模型的輸出內(nèi)容與用于訓(xùn)練它們的輸入內(nèi)容相競(jìng)爭(zhēng)并緊密模仿,也并不屬于合理使用范疇。
《紐約時(shí)報(bào)》要求獲得損害賠償,但未提及最終數(shù)額;要求永久禁止被告從事所述的非法、不公平和侵權(quán)行為,刪除包含《紐約時(shí)報(bào)》作品原理的訓(xùn)練集等。
對(duì)于《紐約時(shí)報(bào)》的訴訟,OpenAI感到“驚訝和失望”,OpenAI發(fā)言人Lindsey Held表示,“我們尊重內(nèi)容創(chuàng)作者和所有者的權(quán)利,并致力于與他們合作,確保他們從人工智能技術(shù)和新的收入模式中受益”。而微軟拒絕就該訴訟發(fā)表評(píng)論。
這并不是OpenAI面臨的第一起因版權(quán)糾紛引起的訴訟。
不完全梳理來看,2023年6月,OpenAI面臨集體訴訟,稱其竊聽了“書籍、文章、網(wǎng)站和帖子――包括未經(jīng)同意獲得的個(gè)人信息”。同年9月,David Baldacci、Mary Bly等十六位作家以及作家協(xié)會(huì),對(duì)OpenAI和微軟提起訴訟。
值得關(guān)注的是,這是傳統(tǒng)的新聞出版領(lǐng)域與新興人工智能領(lǐng)域的第一次交鋒。
“這個(gè)訴訟是典型的人工智能技術(shù)對(duì)人類已有智力成果產(chǎn)生沖擊導(dǎo)致權(quán)利沖突的案例,既關(guān)系到AI產(chǎn)業(yè)的發(fā)展,也涉及已有權(quán)利的保護(hù),在人工智能發(fā)展史上具有標(biāo)志性意義。”浙江墾丁律師事務(wù)所主任律師張延來說道。在他看來,今后類似的案例會(huì)越來越多,需要司法在技術(shù)和權(quán)利保護(hù)之間找到最大公約數(shù)。
AI各階段,數(shù)據(jù)如何保護(hù)?
自人工智能飛速發(fā)展,涉及數(shù)據(jù)知識(shí)產(chǎn)權(quán)引發(fā)的相關(guān)訴訟不在少數(shù)。
廣東財(cái)經(jīng)大學(xué)法學(xué)院教授姚志偉提示,此類案件的難點(diǎn)在于,一是證明權(quán)利人的作品被用于訓(xùn)練,發(fā)生在企業(yè)內(nèi)部較難證實(shí)。二是證明輸出的生成物與權(quán)利人作品存在“實(shí)質(zhì)性相似”。
就前者《紐約時(shí)報(bào)》提出OpenAI使用的公開數(shù)據(jù)集中含有紐約時(shí)報(bào)的作品進(jìn)行證明;就后者《紐約時(shí)報(bào)》進(jìn)行了多個(gè)生成物和其作品之間的比較,證明了生成物存在逐字復(fù)制其作品的現(xiàn)象。上述難題的解決使得這起訴訟從事實(shí)層面駁回提訴相對(duì)困難,將進(jìn)入深入探討實(shí)質(zhì)性法律問題的層面。
一般而言,人工智能企業(yè)的數(shù)據(jù)主要來源于廠商歷史積累的數(shù)據(jù)、通過公開渠道爬取的數(shù)據(jù)以及各類免費(fèi)或付費(fèi)的第三方數(shù)據(jù)庫(kù)與數(shù)據(jù)集等渠道。其中,數(shù)據(jù)知識(shí)產(chǎn)權(quán)相關(guān)問題已經(jīng)成為當(dāng)下人工智能發(fā)展的阿喀琉斯之踵,影響著產(chǎn)業(yè)發(fā)展。
訓(xùn)練數(shù)據(jù)收集、使用階段,不少企業(yè)呼吁通過數(shù)據(jù)的合理使用或法定許可解決數(shù)據(jù)相關(guān)問題。合理使用是指既不需要經(jīng)過版權(quán)人許可,也不需要向其支付報(bào)酬的使用作品行為。
“關(guān)于訓(xùn)練數(shù)據(jù)的合理使用問題,實(shí)質(zhì)涉及是否應(yīng)允許在訓(xùn)練階段未經(jīng)授權(quán)使用他人的版權(quán)作品,尤其是在海量數(shù)據(jù)即將用盡的背景下。此外,海量數(shù)據(jù)逐一獲取版權(quán)人同意的成本極高甚至難以承受?!币χ緜c(diǎn)出AI企業(yè)當(dāng)下發(fā)展可能面臨的困境。
中國(guó)政法法學(xué)法律碩士學(xué)院教授、知識(shí)產(chǎn)權(quán)法創(chuàng)新與競(jìng)爭(zhēng)研究中心主任陶乾在“2023數(shù)字版權(quán)保護(hù)與發(fā)展論壇”上曾表示,數(shù)據(jù)采集階段,數(shù)據(jù)集制作者和數(shù)據(jù)持有者因數(shù)據(jù)抓取產(chǎn)生的糾紛,本質(zhì)上是數(shù)據(jù)使用問題,可通過反不正當(dāng)競(jìng)爭(zhēng)法來處理。數(shù)據(jù)訓(xùn)練階段,生成式人工智能學(xué)習(xí)的是文字、元素和音符之間的分布規(guī)律,訓(xùn)練的是數(shù)據(jù)而非“享受”作品,不屬于著作權(quán)法意義的作品使用行為。
“解決生成式AI版權(quán)問題的本質(zhì)在于數(shù)據(jù)提供者和數(shù)據(jù)集制作者在提供數(shù)據(jù)時(shí)的版權(quán)合規(guī),而不是在大模型訓(xùn)練階段的版權(quán)合規(guī)?!碧涨f道。
與其他案例不同的是,《紐約時(shí)報(bào)》訴OpenAI、微軟案例中,OpenAI被控采集數(shù)百萬篇文章以訓(xùn)練人工智能,而且據(jù)稱是“可以將原報(bào)道逐字逐句地復(fù)制給提問的用戶”。
“結(jié)合美國(guó)關(guān)于作品合理使用的立法以及司法實(shí)踐,很難說此次OpenAI可以像谷歌一樣得到司法支持。除非美國(guó)司法完全站在推動(dòng)人工智能技術(shù)發(fā)展的角度,做出突破性的認(rèn)定?!睆堁觼肀硎?。
輸出階段的人工智能,又該如何回應(yīng)涉及數(shù)據(jù)知識(shí)產(chǎn)權(quán)侵權(quán)問題?
姚志偉提示,對(duì)于輸入階段,使用未經(jīng)授權(quán)的數(shù)據(jù)是否構(gòu)成合理使用,可能存在爭(zhēng)議。但對(duì)于輸出階段,多數(shù)人認(rèn)為實(shí)質(zhì)相似則構(gòu)成侵權(quán)。
“在內(nèi)容輸出階段,AIGC版權(quán)問題本質(zhì)上是著作權(quán)法如何保護(hù)數(shù)據(jù)衍生品,以及權(quán)益歸屬的問題,可以通過引入AIGC強(qiáng)制標(biāo)注,由市場(chǎng)判斷相關(guān)商品是否具有財(cái)產(chǎn)價(jià)值,通過用戶協(xié)議去確定數(shù)據(jù)衍生品的歸屬?!碧涨谏鲜鰰?huì)上表示。
多方利益何以平衡?
處于起步發(fā)展階段的人工智能,當(dāng)下對(duì)于數(shù)據(jù),尤其是高質(zhì)量的數(shù)據(jù)仍然十分渴求。
記者梳理發(fā)現(xiàn),針對(duì)涉數(shù)據(jù)知識(shí)產(chǎn)權(quán)相關(guān)問題,尤其是訓(xùn)練數(shù)據(jù)階段,人工智能公司也在通過前期約定以避免版權(quán)糾紛。如OpenAI先后與美聯(lián)社、AxelSpringe等達(dá)成協(xié)議。
相關(guān)合同金額從媒體報(bào)道中隱約可見?!都~約時(shí)報(bào)》曾經(jīng)報(bào)道,蘋果公司正在與一些大型新聞出版商洽談授權(quán)其新聞檔案,“價(jià)值至少5000萬美元的多年期交易”。1月4日,TheInformation報(bào)道稱,OpenAI每年提供100萬至500萬美元的價(jià)格,以獲得相關(guān)許可。
在涉及數(shù)據(jù)知識(shí)產(chǎn)權(quán)方面,已有國(guó)家作出回應(yīng)。如韓國(guó)表態(tài)允許使用各種出版物進(jìn)行數(shù)據(jù)分析,日本政府表態(tài)不會(huì)對(duì)訓(xùn)練AI所使用的數(shù)據(jù)實(shí)施版權(quán)保護(hù)。
對(duì)于美國(guó)政府來說,回應(yīng)產(chǎn)業(yè)發(fā)展和利益保護(hù)的平衡問題,在此刻顯得尤為重要。
姚志偉表示, “相關(guān)案例,如《紐約時(shí)報(bào)》起訴OpenAI、微軟,可能迫使美國(guó)重新思考其在產(chǎn)業(yè)利益、公共利益和權(quán)利人利益之間的平衡問題。平衡不是寬泛的,最后會(huì)落實(shí)到具體的制度設(shè)計(jì)上面,但是需要時(shí)間”。
而在張延來看來,涉及數(shù)據(jù)相關(guān)知識(shí)產(chǎn)權(quán)問題在多方利益的平衡中,尤其需要關(guān)注兩個(gè)方面。
一是AI數(shù)據(jù)訓(xùn)練過程中對(duì)已有權(quán)利的保護(hù)。應(yīng)當(dāng)對(duì)原有的版權(quán)保護(hù)體系做出一定的突破,最大限度解除對(duì)技術(shù)發(fā)展的限制,畢竟不發(fā)展就是最大的不安全,但要注意對(duì)原權(quán)利人不可產(chǎn)生內(nèi)容上的高度替代或者利益上的過分侵蝕。
二是用戶使用AI生成的內(nèi)容,對(duì)其中基于用戶所做的指令、篩選、判斷、優(yōu)化等智力成果,應(yīng)當(dāng)給予著作權(quán)保護(hù),不能僅因?yàn)锳I的介入,否定所有AIGC內(nèi)容的可版權(quán)性?!耙?yàn)榻窈蟮膭?chuàng)作將進(jìn)入人機(jī)協(xié)作時(shí)代,單純的表達(dá)能力已經(jīng)不再稀缺,重要的還是人的審美、創(chuàng)意和判斷能力?!?span style="display:none">ATn流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM
一個(gè)值得思考的問題,如果《紐約時(shí)報(bào)》勝訴,又該如何制止侵權(quán)?
姚志偉表示,直接對(duì)模型進(jìn)行調(diào)整較為困難,因?yàn)樯婕暗揭恍┘夹g(shù)障礙,同時(shí)效果并不確定,而且實(shí)施成本較高?!拔磥砘蛟S在模型輸出階段,通過技術(shù)過濾等手段以防止侵權(quán)行為的發(fā)生”。
本文鏈接:AI企業(yè)VS新聞出版機(jī)構(gòu)版權(quán)第一案:數(shù)據(jù)屬于誰?產(chǎn)業(yè)和保護(hù)最大公約數(shù)如何劃定?http://m.lensthegame.com/show-2-2266-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 扎克伯格兩個(gè)月內(nèi)套現(xiàn)逾4億美元,巨資建造的“末日地堡”曝光……
下一篇: 科技巨頭加碼數(shù)據(jù)庫(kù)市場(chǎng) 四大核心應(yīng)用場(chǎng)景國(guó)產(chǎn)化比例超40%