南方財經(jīng)全媒體見(jiàn)習記者馬嘉璐 21世紀經(jīng)濟報道記者尤一煒 廣州報道
近日,筆神作文指控昔日合作伙伴學(xué)而思“偷數據”訓練自家AI產(chǎn)品,隨后學(xué)而思對此公開(kāi)予以否認。筆神作文稱(chēng)之為國內“AI大模型數據被盜第一案”。不過(guò),有律師分析,從現有內容來(lái)看,該案應屬于普通的數據侵權糾紛或協(xié)議糾紛,目前還不能判斷學(xué)而思是否違法。
筆神作文與學(xué)而思的糾紛,牽引出大模型的一個(gè)“隱秘的角落”:用于訓練AI大模型的數據,來(lái)源是否合法合規?事實(shí)上,關(guān)于大模型數據集的紛爭已在海內外頻頻上演。
(資料圖)
監管方面正在注意AI大模型訓練數據集的合法合規。國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》明確,預訓練、優(yōu)化訓練數據應保證真實(shí)性、準確性、客觀(guān)性、多樣性,不含有侵犯知識產(chǎn)權的內容,包含個(gè)人信息的應符合“告知-同意”等原則。對外經(jīng)濟貿易大學(xué)數字經(jīng)濟與法律創(chuàng )新研究中心執行主任張欣認為,平衡安全和發(fā)展成為大模型數據集監管的重要挑戰,數據安全審計制度等可以為此提供借鑒。
或為國內“AI大模型數據被盜第一案”
筆神作文與學(xué)而思關(guān)于是否“偷數據”在互聯(lián)網(wǎng)公開(kāi)“喊話(huà)”,已進(jìn)行了一個(gè)半回合。
筆神作文將之稱(chēng)為“AI大模型數據被盜第一案”。6月13日下午,筆神作文通過(guò)自己的微信公眾號、微博和第三方媒體發(fā)布消息,指控其合作伙伴學(xué)而思未經(jīng)授權爬取了筆神作文的數據,用于訓練大模型產(chǎn)品。同日17時(shí),學(xué)而思官方公眾號對此事作出回應,表示自己對筆神作文數據的使用屬于雙方合同約定的正常合作范圍,筆神作文“主觀(guān)揣測”“與事實(shí)嚴重不符”。
14日19時(shí),筆神作文再次通過(guò)微信公眾號列舉更多“證據”,力圖證明學(xué)而思在4月13日至17日,通過(guò)“爬蟲(chóng)”技術(shù)非法訪(fǎng)問(wèn)、緩存筆神作文App服務(wù)器數據258萬(wàn)次。
“筆神作文APP”微信公眾號公布的雙方合作API接口“每日數據調用量折線(xiàn)圖”
面對筆神作文的再次“喊話(huà)”,學(xué)而思是否有新的回應?截至發(fā)稿前,學(xué)而思與筆神作文方面均未針對此事向南方財經(jīng)全媒體記者給出相關(guān)回應。
在13日的聲明中,學(xué)而思透露雙方合作的內容:筆神作文為學(xué)而思提供“筆神作文范文素材服務(wù)接口”,用于學(xué)而思相關(guān)服務(wù)中,每月保底費用包含的調用次數為百萬(wàn)次量級。筆神作文則在14日發(fā)布的消息中稱(chēng),雙方合同明確“甲方(注:三體云聯(lián)公司,為學(xué)而思關(guān)聯(lián)公司)不得在未經(jīng)乙方(注:一筆兩劃公司,“筆神作文”系該司旗下品牌)允許的情況下用于任何其他用途,包括緩存,存儲,作為語(yǔ)料進(jìn)行計算,訓練等?!?/p>
筆神作文表示,將通過(guò)司法程序解決糾紛,要求“學(xué)而思”支付1元賠償金,公開(kāi)道歉,并刪除已爬取的數據。
律師:現有內容難以判斷學(xué)而思違法
“‘AI大模型數據被盜第一案’有些噱頭的成分?!北本┦懈偺旃\律師事務(wù)所合伙人周楊認為,本案爭議的焦點(diǎn)是用于訓練AI大模型的數據,而并非AI大模型的算法,應屬于普通的數據侵權糾紛或協(xié)議糾紛。
海問(wèn)律師事務(wù)所合伙人楊建媛分析,該事件可以從知識產(chǎn)權保護和反不正當競爭兩個(gè)角度來(lái)看。從知識產(chǎn)權保護角度,如果筆神作文對學(xué)而思獲取的內容享有著(zhù)作權,且學(xué)而思的行為不符合著(zhù)作權法規定的“可以不經(jīng)著(zhù)作權人許可”的“例外”情況,則學(xué)而思的行為需經(jīng)過(guò)筆神作文的許可。她還強調,如筆神作文所稱(chēng)為事實(shí),學(xué)而思對筆神作文數據的使用可能超出了“合理使用”的范疇。
從反不正當競爭角度,學(xué)而思是否存在未經(jīng)授權爬取筆神作文數據的情況、是否利用所獲數據開(kāi)發(fā)實(shí)質(zhì)性替代筆神作文的產(chǎn)品或服務(wù),是判斷是否構成侵權的關(guān)鍵。楊建媛分析,從筆神作文的敘述來(lái)看,其可能并未對學(xué)而思設置反爬措施,但是在協(xié)議中約定了相關(guān)禁止行為。單純的違約行為較難直接認定為違反了反不正當競爭法下的商業(yè)道德要求。另外,學(xué)而思將數據用于大模型訓練,訓練出來(lái)的產(chǎn)品與筆神作文的產(chǎn)品是否存在競爭關(guān)系,是否會(huì )對筆神作文造成不良后果,還存在爭議。
周楊也表示,學(xué)而思是否違法,關(guān)鍵要看合同中對數據的獲取、處理和使用是如何約定的,以及筆神作文是否對作品、數據庫享有版權。根據現有雙方披露的內容,“還不能判斷”。
數據來(lái)源是否合規牽出“隱秘的角落”
筆神作文與學(xué)而思的糾紛,牽引出大模型的一個(gè)“隱秘的角落”:訓練AI大模型通常需要海量的數據,而這些數據的來(lái)源是否合法合規?
事實(shí)上,隨著(zhù)ChatGPT帶動(dòng)生成式AI的爆火,關(guān)于A(yíng)I大模型訓練數據的紛爭在海內外頻頻上演。
爭議所涉及的數據可以大致分為兩類(lèi):一類(lèi)有著(zhù)明確的知識產(chǎn)權,如原創(chuàng )的圖片、音樂(lè )、視頻、文章等;一類(lèi)由用戶(hù)在平臺上的零散發(fā)言匯集而成,如百科、社區、貼吧等。
今年年初,Stability AI受到美國大型商業(yè)圖庫提供商Getty Images以及漫畫(huà)家的分別起訴,原因是他們認為Stability AI用于訓練AI圖像生成模型Stable Diffusion的數據“非法復制和處理了受版權保護的圖像”。
此外,推特、“美版貼吧”Reddit也在今年上半年相繼宣布對API接口收費,且價(jià)格不菲。此前,這些平臺的內容可以被谷歌、openAI等公司免費爬取,用作大語(yǔ)言模型的訓練庫。推特CEO馬斯克稱(chēng)“他們(微軟)非法利用推特的數據來(lái)訓練,是時(shí)候起訴他們了?!盧eddit則在其官網(wǎng)更新條款:“未經(jīng)Reddit明確同意,您不得將Reddit上的內容用作任何模型訓練的輸入。未經(jīng)明確批準,禁止將任何使用Reddit數據訓練的模型用于商業(yè)用途?!?/p>
谷歌C4數據集支撐了多個(gè)AI模型的預訓練。今年4月,《華盛頓郵報》與艾倫人工智能研究院合作調查發(fā)現,該數據集中存在只接受付費訂閱的網(wǎng)站,以及近30個(gè)被美國政府認定為盜版和假冒產(chǎn)品市場(chǎng)的網(wǎng)站。
平衡安全與發(fā)展成監管挑戰
監管方面正在注意AI大模型訓練數據集的情況。
當地時(shí)間2023年6月14日,歐洲議會(huì )投票通過(guò)關(guān)于《人工智能法案》的談判授權草案,意味著(zhù)該法案將進(jìn)入歐盟啟動(dòng)監管前的最后階段。該法案要求OpenAI、谷歌和微軟等基礎模型的供應商需要公開(kāi),他們在訓練模型過(guò)程中,是否使用了受版權保護的數據。
此前,國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》也明確,用于生成式人工智能產(chǎn)品的預訓練、優(yōu)化訓練數據,應符合網(wǎng)安法等法律法規的要求,不含有侵犯知識產(chǎn)權的內容,包含個(gè)人信息的應符合“告知-同意”原則等要求,還應保證數據的真實(shí)性、準確性、客觀(guān)性、多樣性。
“對大模型數據集的監管,如何能做到安全和發(fā)展的平衡,是一個(gè)重要挑戰?!睂ν饨?jīng)濟貿易大學(xué)數字經(jīng)濟與法律創(chuàng )新研究中心執行主任張欣表示,《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》已對AI訓練數據集的合規要求搭建了清晰的框架,在運用著(zhù)作權和知識產(chǎn)權方式之外,還可以探索使用多種法律手段去實(shí)現。
張欣分析,監管的落地,還存在事后難追溯等問(wèn)題,尤其在算法復雜度日益攀升、出現“算法黑箱”等情況下,如果從事后去還原和追溯數據集是否合規,十分依賴(lài)大模型開(kāi)發(fā)商提供數據處理記錄和日志,很難從外部進(jìn)行確認。此外,從技術(shù)上來(lái)說(shuō)大模型很難精確刪除某個(gè)用戶(hù)的個(gè)人信息,這就限制了個(gè)人信息保護中“刪除權”的行使。
歐盟《人工智能法案》草案設置了吹哨人制度,鼓勵專(zhuān)業(yè)人士從內部進(jìn)行監督,為監管提供了一種創(chuàng )新思路。張欣認為,大模型開(kāi)發(fā)者應做好信息記錄和披露的工作,提高數據集的透明度,在算法解釋性遇到困難的時(shí)候,至少可以通過(guò)數據的透明和可解釋來(lái)尋找答案。數據安全審計制度在國際上也有較為通行的經(jīng)驗,大模型數據監管也可以探索使用審計的方式,找到透明度與保護商業(yè)秘密之間的平衡。
標簽: