<strong id="ctjbx"></strong>

  1. <strong id="ctjbx"></strong>
    <ruby id="ctjbx"></ruby>

    學(xué)而思被指“偷數據”訓練AI,牽出大模型“隱秘的角落” 天天熱消息

    來(lái)源:21世紀經(jīng)濟報道時(shí)間:2023-06-16 18:04:28

    南方財經(jīng)全媒體見(jiàn)習記者馬嘉璐  21世紀經(jīng)濟報道記者尤一煒  廣州報道

    近日,筆神作文指控昔日合作伙伴學(xué)而思“偷數據”訓練自家AI產(chǎn)品,隨后學(xué)而思對此公開(kāi)予以否認。筆神作文稱(chēng)之為國內“AI大模型數據被盜第一案”。不過(guò),有律師分析,從現有內容來(lái)看,該案應屬于普通的數據侵權糾紛或協(xié)議糾紛,目前還不能判斷學(xué)而思是否違法。

    筆神作文與學(xué)而思的糾紛,牽引出大模型的一個(gè)“隱秘的角落”:用于訓練AI大模型的數據,來(lái)源是否合法合規?事實(shí)上,關(guān)于大模型數據集的紛爭已在海內外頻頻上演。


    (資料圖)

    監管方面正在注意AI大模型訓練數據集的合法合規。國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》明確,預訓練、優(yōu)化訓練數據應保證真實(shí)性、準確性、客觀(guān)性、多樣性,不含有侵犯知識產(chǎn)權的內容,包含個(gè)人信息的應符合“告知-同意”等原則。對外經(jīng)濟貿易大學(xué)數字經(jīng)濟與法律創(chuàng )新研究中心執行主任張欣認為,平衡安全和發(fā)展成為大模型數據集監管的重要挑戰,數據安全審計制度等可以為此提供借鑒。

    或為國內“AI大模型數據被盜第一案”

    筆神作文與學(xué)而思關(guān)于是否“偷數據”在互聯(lián)網(wǎng)公開(kāi)“喊話(huà)”,已進(jìn)行了一個(gè)半回合。

    筆神作文將之稱(chēng)為“AI大模型數據被盜第一案”。6月13日下午,筆神作文通過(guò)自己的微信公眾號、微博和第三方媒體發(fā)布消息,指控其合作伙伴學(xué)而思未經(jīng)授權爬取了筆神作文的數據,用于訓練大模型產(chǎn)品。同日17時(shí),學(xué)而思官方公眾號對此事作出回應,表示自己對筆神作文數據的使用屬于雙方合同約定的正常合作范圍,筆神作文“主觀(guān)揣測”“與事實(shí)嚴重不符”。

    14日19時(shí),筆神作文再次通過(guò)微信公眾號列舉更多“證據”,力圖證明學(xué)而思在4月13日至17日,通過(guò)“爬蟲(chóng)”技術(shù)非法訪(fǎng)問(wèn)、緩存筆神作文App服務(wù)器數據258萬(wàn)次。

    “筆神作文APP”微信公眾號公布的雙方合作API接口“每日數據調用量折線(xiàn)圖”

    面對筆神作文的再次“喊話(huà)”,學(xué)而思是否有新的回應?截至發(fā)稿前,學(xué)而思與筆神作文方面均未針對此事向南方財經(jīng)全媒體記者給出相關(guān)回應。

    在13日的聲明中,學(xué)而思透露雙方合作的內容:筆神作文為學(xué)而思提供“筆神作文范文素材服務(wù)接口”,用于學(xué)而思相關(guān)服務(wù)中,每月保底費用包含的調用次數為百萬(wàn)次量級。筆神作文則在14日發(fā)布的消息中稱(chēng),雙方合同明確“甲方(注:三體云聯(lián)公司,為學(xué)而思關(guān)聯(lián)公司)不得在未經(jīng)乙方(注:一筆兩劃公司,“筆神作文”系該司旗下品牌)允許的情況下用于任何其他用途,包括緩存,存儲,作為語(yǔ)料進(jìn)行計算,訓練等?!?/p>

    筆神作文表示,將通過(guò)司法程序解決糾紛,要求“學(xué)而思”支付1元賠償金,公開(kāi)道歉,并刪除已爬取的數據。

    律師:現有內容難以判斷學(xué)而思違法

    “‘AI大模型數據被盜第一案’有些噱頭的成分?!北本┦懈偺旃\律師事務(wù)所合伙人周楊認為,本案爭議的焦點(diǎn)是用于訓練AI大模型的數據,而并非AI大模型的算法,應屬于普通的數據侵權糾紛或協(xié)議糾紛。

    海問(wèn)律師事務(wù)所合伙人楊建媛分析,該事件可以從知識產(chǎn)權保護和反不正當競爭兩個(gè)角度來(lái)看。從知識產(chǎn)權保護角度,如果筆神作文對學(xué)而思獲取的內容享有著(zhù)作權,且學(xué)而思的行為不符合著(zhù)作權法規定的“可以不經(jīng)著(zhù)作權人許可”的“例外”情況,則學(xué)而思的行為需經(jīng)過(guò)筆神作文的許可。她還強調,如筆神作文所稱(chēng)為事實(shí),學(xué)而思對筆神作文數據的使用可能超出了“合理使用”的范疇。

    從反不正當競爭角度,學(xué)而思是否存在未經(jīng)授權爬取筆神作文數據的情況、是否利用所獲數據開(kāi)發(fā)實(shí)質(zhì)性替代筆神作文的產(chǎn)品或服務(wù),是判斷是否構成侵權的關(guān)鍵。楊建媛分析,從筆神作文的敘述來(lái)看,其可能并未對學(xué)而思設置反爬措施,但是在協(xié)議中約定了相關(guān)禁止行為。單純的違約行為較難直接認定為違反了反不正當競爭法下的商業(yè)道德要求。另外,學(xué)而思將數據用于大模型訓練,訓練出來(lái)的產(chǎn)品與筆神作文的產(chǎn)品是否存在競爭關(guān)系,是否會(huì )對筆神作文造成不良后果,還存在爭議。

    周楊也表示,學(xué)而思是否違法,關(guān)鍵要看合同中對數據的獲取、處理和使用是如何約定的,以及筆神作文是否對作品、數據庫享有版權。根據現有雙方披露的內容,“還不能判斷”。

    數據來(lái)源是否合規牽出“隱秘的角落”

    筆神作文與學(xué)而思的糾紛,牽引出大模型的一個(gè)“隱秘的角落”:訓練AI大模型通常需要海量的數據,而這些數據的來(lái)源是否合法合規?

    事實(shí)上,隨著(zhù)ChatGPT帶動(dòng)生成式AI的爆火,關(guān)于A(yíng)I大模型訓練數據的紛爭在海內外頻頻上演。

    爭議所涉及的數據可以大致分為兩類(lèi):一類(lèi)有著(zhù)明確的知識產(chǎn)權,如原創(chuàng )的圖片、音樂(lè )、視頻、文章等;一類(lèi)由用戶(hù)在平臺上的零散發(fā)言匯集而成,如百科、社區、貼吧等。

    今年年初,Stability AI受到美國大型商業(yè)圖庫提供商Getty Images以及漫畫(huà)家的分別起訴,原因是他們認為Stability AI用于訓練AI圖像生成模型Stable Diffusion的數據“非法復制和處理了受版權保護的圖像”。

    此外,推特、“美版貼吧”Reddit也在今年上半年相繼宣布對API接口收費,且價(jià)格不菲。此前,這些平臺的內容可以被谷歌、openAI等公司免費爬取,用作大語(yǔ)言模型的訓練庫。推特CEO馬斯克稱(chēng)“他們(微軟)非法利用推特的數據來(lái)訓練,是時(shí)候起訴他們了?!盧eddit則在其官網(wǎng)更新條款:“未經(jīng)Reddit明確同意,您不得將Reddit上的內容用作任何模型訓練的輸入。未經(jīng)明確批準,禁止將任何使用Reddit數據訓練的模型用于商業(yè)用途?!?/p>

    谷歌C4數據集支撐了多個(gè)AI模型的預訓練。今年4月,《華盛頓郵報》與艾倫人工智能研究院合作調查發(fā)現,該數據集中存在只接受付費訂閱的網(wǎng)站,以及近30個(gè)被美國政府認定為盜版和假冒產(chǎn)品市場(chǎng)的網(wǎng)站。

    平衡安全與發(fā)展成監管挑戰

    監管方面正在注意AI大模型訓練數據集的情況。

    當地時(shí)間2023年6月14日,歐洲議會(huì )投票通過(guò)關(guān)于《人工智能法案》的談判授權草案,意味著(zhù)該法案將進(jìn)入歐盟啟動(dòng)監管前的最后階段。該法案要求OpenAI、谷歌和微軟等基礎模型的供應商需要公開(kāi),他們在訓練模型過(guò)程中,是否使用了受版權保護的數據。

    此前,國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》也明確,用于生成式人工智能產(chǎn)品的預訓練、優(yōu)化訓練數據,應符合網(wǎng)安法等法律法規的要求,不含有侵犯知識產(chǎn)權的內容,包含個(gè)人信息的應符合“告知-同意”原則等要求,還應保證數據的真實(shí)性、準確性、客觀(guān)性、多樣性。

    “對大模型數據集的監管,如何能做到安全和發(fā)展的平衡,是一個(gè)重要挑戰?!睂ν饨?jīng)濟貿易大學(xué)數字經(jīng)濟與法律創(chuàng )新研究中心執行主任張欣表示,《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》已對AI訓練數據集的合規要求搭建了清晰的框架,在運用著(zhù)作權和知識產(chǎn)權方式之外,還可以探索使用多種法律手段去實(shí)現。

    張欣分析,監管的落地,還存在事后難追溯等問(wèn)題,尤其在算法復雜度日益攀升、出現“算法黑箱”等情況下,如果從事后去還原和追溯數據集是否合規,十分依賴(lài)大模型開(kāi)發(fā)商提供數據處理記錄和日志,很難從外部進(jìn)行確認。此外,從技術(shù)上來(lái)說(shuō)大模型很難精確刪除某個(gè)用戶(hù)的個(gè)人信息,這就限制了個(gè)人信息保護中“刪除權”的行使。

    歐盟《人工智能法案》草案設置了吹哨人制度,鼓勵專(zhuān)業(yè)人士從內部進(jìn)行監督,為監管提供了一種創(chuàng )新思路。張欣認為,大模型開(kāi)發(fā)者應做好信息記錄和披露的工作,提高數據集的透明度,在算法解釋性遇到困難的時(shí)候,至少可以通過(guò)數據的透明和可解釋來(lái)尋找答案。數據安全審計制度在國際上也有較為通行的經(jīng)驗,大模型數據監管也可以探索使用審計的方式,找到透明度與保護商業(yè)秘密之間的平衡。

    標簽:

    責任編輯:FD31
    上一篇:老賴(lài)對幾代人有影響 環(huán)球今日訊
    下一篇:最后一頁(yè)

    精彩圖集(熱圖)

    熱點(diǎn)圖集

    最近更新

    信用中國

    • 信用信息
    • 行政許可和行政處罰
    • 網(wǎng)站文章

    久爱免费观看在线精品_亚洲综合一区二区三区_最新国产国模无码视频在线_中文字幕无码精品亚洲资源网久久

      <strong id="ctjbx"></strong>

    1. <strong id="ctjbx"></strong>
      <ruby id="ctjbx"></ruby>