<strong id="ctjbx"></strong>

  1. <strong id="ctjbx"></strong>
    <ruby id="ctjbx"></ruby>

    GPT-5將死于GPT-4背刺?牛津劍橋研究警告:AI訓AI成「劇毒」,會(huì )讓模型崩潰!-微頭條

    來(lái)源:創(chuàng )業(yè)邦時(shí)間:2023-06-17 09:43:22

    最差的人類(lèi)語(yǔ)料,也要勝過(guò)AI生成的文本。

    隨著(zhù)GPT-4、Stable Diffusion和Midjourney的爆火,越來(lái)越多的人開(kāi)始在工作和生活中引入生成式AI技術(shù)。

    甚至,有人已經(jīng)開(kāi)始嘗試用AI生成的數據來(lái)訓練AI了。難道,這就是傳說(shuō)中的「數據永動(dòng)機」?


    (資料圖片)

    然而,來(lái)自牛津、劍橋、帝國理工等機構研究人員發(fā)現,如果在訓練時(shí)大量使用AI內容,會(huì )引發(fā)模型崩潰(model collapse),造成不可逆的缺陷。

    也就是,隨著(zhù)時(shí)間推移,模型就會(huì )忘記真實(shí)基礎數據部分。即使在幾乎理想的長(cháng)期學(xué)習狀態(tài)下,這個(gè)情況也無(wú)法避免。

    因此研究人員呼吁,如果想要繼續保持大規模數據帶來(lái)的模型優(yōu)越性,就必須認真對待人類(lèi)自己寫(xiě)出來(lái)的文本。

    論文地址:https://arxiv.org/abs/2305.17493v2

    但現在的問(wèn)題在于——你以為的「人類(lèi)數據」,可能并不是「人類(lèi)」寫(xiě)的。

    洛桑聯(lián)邦理工學(xué)院(EPFL)的最新研究稱(chēng),預估33%-46%的人類(lèi)數據都是由AI生成的。

    訓練數據,都是「垃圾」

    毫無(wú)疑問(wèn),現在的大語(yǔ)言模型已經(jīng)進(jìn)化出了相當強大的能力,比如GPT-4可以在某些場(chǎng)景下生成與人類(lèi)別無(wú)二致的文本。

    但這背后的一個(gè)重要原因是,它們的訓練數據大部分來(lái)源于過(guò)去幾十年人類(lèi)在互聯(lián)網(wǎng)上的交流。

    如果未來(lái)的語(yǔ)言模型仍然依賴(lài)于從網(wǎng)絡(luò )上爬取數據的話(huà),就不可避免地要在訓練集中引入自己生成的文本。

    對此,研究人員預測,等GPT發(fā)展到第n代的時(shí)候,模型將會(huì )出現嚴重的崩潰問(wèn)題。

    那么,在這種不可避免會(huì )抓取到LLM生成內容的情況下,為模型的訓練準備由人類(lèi)生產(chǎn)的真實(shí)數據,就變得尤為重要了。

    大名鼎鼎的亞馬遜數據眾包平臺Mechanical Turk(MTurk)從2005年啟動(dòng)時(shí)就已經(jīng)成為許多人的副業(yè)選擇。

    科研人員可以發(fā)布各種瑣碎的人類(lèi)智能任務(wù),比如給圖像標注、調查等,應有盡有。

    而這些任務(wù)通常是計算機和算法無(wú)法處理的,甚至,MTurk成為一些預算不夠的科研人員和公司的「最佳選擇」。

    就連貝佐斯還將MTurk的眾包工人戲稱(chēng)為「人工人工智能」。

    除了MTurk,包括Prolific在內的眾包平臺已經(jīng)成為研究人員和行業(yè)實(shí)踐者的核心,能夠提供創(chuàng )建、標注和總結各種數據的方法,以便進(jìn)行調查和實(shí)驗。

    然而,來(lái)自EPFL的研究發(fā)現,在這個(gè)人類(lèi)數據的關(guān)鍵來(lái)源上,有近乎一半的數據都是標注員用AI創(chuàng )建的。

    論文地址:https://arxiv.org/abs/2306.07899v1

    模型崩潰

    而最開(kāi)始提到的「模型崩潰」,就是在給模型投喂了太多來(lái)自AI的數據之后,帶來(lái)的能夠影響多代的退化。

    也就是,新一代模型的訓練數據會(huì )被上一代模型的生成數據所污染,從而對現實(shí)世界的感知產(chǎn)生錯誤的理解。

    更進(jìn)一步,這種崩潰還會(huì )引發(fā)比如基于性別、種族或其他敏感屬性的歧視問(wèn)題,尤其是如果生成AI隨著(zhù)時(shí)間的推移學(xué)會(huì )在其響應中只生成某個(gè)種族,而「忘記」其他種族的存在。

    而且,除了大語(yǔ)言模型,模型崩潰還會(huì )出現在變分自編碼器(VAE)、高斯混合模型上。

    需要注意的是,模型崩潰的過(guò)程與災難性遺忘(catastrophic forgetting)不同,模型不會(huì )忘記以前學(xué)過(guò)的數據,而是開(kāi)始把模型的錯誤想法曲解為現實(shí),并且還會(huì )強化自己對錯誤想法的信念。

    舉個(gè)例子,比如模型在一個(gè)包含100張貓圖片的數據集上進(jìn)行訓練,其中有10張藍毛貓,90張黃毛貓。

    模型學(xué)到的結論是,黃毛貓更普遍,同時(shí)會(huì )傾向于把藍毛貓想象的比實(shí)際更偏黃,所以在被要求生成新數據時(shí)可能會(huì )返回一些類(lèi)似綠毛貓的結果。

    而隨著(zhù)時(shí)間的推移,藍毛的原始特征在多個(gè)訓練epoch中逐漸被侵蝕,直接從藍色變成了綠色,最終再演變?yōu)辄S色,這種漸進(jìn)的扭曲和丟失少數特征的現象就是模型崩潰。

    具體來(lái)說(shuō),模型崩潰可以分為兩種情況:

    1. 早期模型崩潰(early model collapse),模型開(kāi)始丟失有關(guān)分布尾部的信息;

    2. 后期模型崩潰(late model collapse),模型與原始分布的不同模式糾纏在一起,并收斂到一個(gè)與原始分布幾乎沒(méi)有相似之處的分布,往往方差也會(huì )非常小。

    與此同時(shí),研究人員也總結出了造成模型崩潰的兩個(gè)主要原因:

    其中,在更多的時(shí)候,我們會(huì )得到一種級聯(lián)效應,即單個(gè)不準確的組合會(huì )導致整體誤差的增加。

    1. 統計近似誤差(Statistical approximation error)

    在重采樣的每一步中,信息中非零概率都可能會(huì )丟失,導致出現統計近似誤差,當樣本數量趨于無(wú)限會(huì )逐漸消失,該誤差是導致模型崩潰的主要原因。

    2. 函數近似誤差(Functional approximation error)

    該誤差主要源于模型中的函數近似器表達能力不足,或者有時(shí)在原始分布支持之外的表達能力太強。

    眾所周知,神經(jīng)網(wǎng)絡(luò )在極限情況下是通用的函數近似器,但實(shí)際上這種假設并不總是成立的,特別是神經(jīng)網(wǎng)絡(luò )可以在原始分布的支持范圍之外引入非零似然。

    舉個(gè)簡(jiǎn)單例子,如果我們試圖用一個(gè)高斯分布來(lái)擬合兩個(gè)高斯的混合分布,即使模型具有關(guān)于數據分布的完美信息,模型誤差也是不可避免的。

    需要注意的是,在沒(méi)有統計誤差的情況下,函數近似誤差只會(huì )發(fā)生在第一代,一旦新的分布能被函數近似器描述出來(lái),就會(huì )在各代模型中保持完全相同的分布。

    可以說(shuō),模型強大的近似能力是一把雙刃劍:其表達能力可能會(huì )抵消統計噪聲,從而更好地擬合真實(shí)分布,但同樣也會(huì )使噪聲復雜化。

    對此,論文共同一作Ilia Shumailov表示:「生成數據中的錯誤會(huì )累積,最終迫使從生成數據中學(xué)習的模型進(jìn)一步錯誤地理解現實(shí)。而且模型崩潰發(fā)生得非???,模型會(huì )迅速忘記最初學(xué)習的大部分原始數據?!?/p>

    解決方法

    好在,研究人員發(fā)現,我們還是有辦法來(lái)避免模型崩潰的。

    第一種方法是保留原始的、完全或名義上由人類(lèi)生成的數據集的高質(zhì)量副本,并避免與AI生成的數據混合,然后定期使用這些數據對模型進(jìn)行重新訓練,或者完全從頭訓練一遍模型。

    第二種避免回復質(zhì)量下降并減少AI模型中的錯誤或重復的方法是將全新的、干凈的、由人類(lèi)生成的數據集重新引入訓練中。

    為了防止模型崩潰,開(kāi)發(fā)者需要確保原始數據中的少數派在后續數據集中得到公正的表征。

    數據需要仔細備份,并覆蓋所有可能的邊界情況;在評估模型的性能時(shí),需要考慮到模型將要處理的數據,甚至是最不可信的數據。

    隨后,當重新訓練模型時(shí),還需要確保同時(shí)包括舊數據和新數據,雖然會(huì )增加訓練的成本,但至少在某種程度上有助于緩解模型崩潰。

    不過(guò),這些方法必須要內容制作者或AI公司采取某種大規模的標記機制,來(lái)區分AI生成的內容和人類(lèi)生成的內容。

    目前,有一些開(kāi)箱即用的解決方案,比如GPTZero,OpenAI Detector,或Writer在簡(jiǎn)單的文本上工作得很好。

    然而,在一些特殊的文本中,這些方法并不能有效執行。比如,在EPFL研究中有ChatGPT合成的10個(gè)總結,而GPTZero只檢測到6個(gè)是合成的。

    對此,研究人員通過(guò)微調自己的模型來(lái)檢測AI的使用,發(fā)現ChatGPT在編寫(xiě)本文時(shí)是最常用的LLM。

    對于構建的檢測AI數據的方法,研究人員利用原始研究中的答案和用ChatGPT合成的數據,訓練了一個(gè)定制的「合成-真實(shí)分類(lèi)器」。

    然后用這個(gè)分類(lèi)器來(lái)估計重新進(jìn)行的任務(wù)中合成答案的普遍性。

    具體來(lái)講,研究人員首先使用真正由人類(lèi)撰寫(xiě)的MTurk回應,和合成LLM生成的回應,來(lái)訓練特定任務(wù)的「合成-真實(shí)分類(lèi)器」。

    其次,將這個(gè)分類(lèi)器用于MTurk的真實(shí)回應(其中眾包人可能使用,也可能沒(méi)有依賴(lài)LLM),以估計LLM使用的普遍性。

    最后,研究者確認了結果的有效性,在事后比較分析擊鍵數據與MTurk的回應。

    實(shí)驗結果顯示,這個(gè)模型在正確識別人工智能文本方面高達99%的準確率。

    此外,研究人員用擊鍵數據驗證了結果,發(fā)現:

    - 完全在MTurk文本框中寫(xiě)的總結(不太可能是合成的)都被歸類(lèi)為真實(shí)的;

    - 在粘貼的總結中,提取式總結和LLM的使用有明顯區別。

    具體來(lái)講,人工智能生成的文本通常與原始總結幾乎沒(méi)有相似之處。這表明AI模型正在生成新文本,而不是復制和粘貼原始內容的一部分。

    「人類(lèi)數據」很重要

    現在,人們普遍擔心LLM將塑造人類(lèi)的「信息生態(tài)系統」,也就是說(shuō),在線(xiàn)可獲得的大部分信息都是由LLM生成的。

    使用綜合生成數據訓練的LLM的性能明顯降低,就像Ilia Shumailov所稱(chēng)會(huì )讓模型患上「癡呆癥」。

    而這個(gè)問(wèn)題將會(huì )變得更加嚴重,因為隨著(zhù)LLM的普及,眾包工作者們已經(jīng)廣泛使用ChatGPT等各種LLM。

    但對于人類(lèi)內容創(chuàng )作者來(lái)說(shuō),這是一個(gè)好消息,提高工作效率的同時(shí),還賺到了錢(qián)。

    但是,若想挽救LLM不陷于崩潰的邊緣,還是需要真實(shí)的「人類(lèi)數據」。

    1. 人類(lèi)數據在科學(xué)中仍然是至關(guān)重要的

    2. 在合成數據上訓練模型可能會(huì )帶來(lái)偏見(jiàn)和意識形態(tài)永久化

    3. 隨著(zhù)模型變得流行和更好/多模態(tài),采用率只會(huì )增加

    總的來(lái)說(shuō),由人類(lèi)生成的原始數據可以更好地表示世界,雖然也可能包含某些劣質(zhì)、概率較低的數據;而生成式模型往往只會(huì )過(guò)度擬合流行數據,并對概率更低的數據產(chǎn)生誤解。

    那么,在充斥著(zhù)生成式AI工具和相關(guān)內容的未來(lái),人類(lèi)制作的內容或許會(huì )比今天更有價(jià)值,尤其是作為AI原始訓練數據的來(lái)源。

    參考資料:

    https://arxiv.org/abs/2306.07899v1

    https://arxiv.org/abs/2305.17493v2

    本文(含圖片)為合作媒體授權創(chuàng )業(yè)邦轉載,不代表創(chuàng )業(yè)邦立場(chǎng),轉載請聯(lián)系原作者。如有任何疑問(wèn),請聯(lián)系editor@cyzone.cn。

    標簽:

    責任編輯:FD31
    上一篇:時(shí)訊:國乒公布斯洛文尼亞挑戰賽名單,馬龍帶新人打資格賽,球迷感動(dòng)!
    下一篇:最后一頁(yè)

    精彩圖集(熱圖)

    熱點(diǎn)圖集

    最近更新

    信用中國

    • 信用信息
    • 行政許可和行政處罰
    • 網(wǎng)站文章

    久爱免费观看在线精品_亚洲综合一区二区三区_最新国产国模无码视频在线_中文字幕无码精品亚洲资源网久久

      <strong id="ctjbx"></strong>

    1. <strong id="ctjbx"></strong>
      <ruby id="ctjbx"></ruby>