手機版 您好,歡迎瀏覽保密文件銷毀_報廢產品銷毀_食品銷毀_過期化妝品銷毀_單據票據銷毀-惠州GDYF益夫銷毀公司 手機:13929592192 聯系人:張先生

保密文件銷毀_報廢產品銷毀_食品銷毀_過期化妝品銷毀_單據票據銷毀-惠州GDYF益夫銷毀公司

咨詢電話 13929592192

  您當前所在位置:首頁 > 玩具銷毀

GPT-5只會更笨!斯坦福萊斯思索警告,AI訓AI超過5次,模型反噬,性能大減

時間:2023-07-24 11:37
GPT-5只會更笨!斯坦福萊斯思索警告,AI訓AI超過5次,模型反噬,性能大減

用AI生成的數據訓練AI,不會有魔法,只會被反噬。

近日,萊斯大學和斯坦福團隊展現,將AI生成的內容喂給模型,只會導致性能下降。

商量人員對此給出一種解釋,叫做「模型自噬障礙」(MAD)。

文件銷毀,產品銷毀,食品銷毀,化妝品銷毀,日化用品銷毀,單據票據銷毀,GDYF

論文地址:https://arxiv.org/abs/2307.01850

探求發當下使用AI數據,通過第5次迭代訓練后,模型就會患上MAD。66

在合成數據上訓練AI模型會進一步放大偽影

換句話說,若是無從給模型供給「新鮮的數據」,即由人類標注的數據,其輸出質量將會受到關鍵作用。

拒絕模型「內耗」

目前,MAD尚未確認會作用所有AI模型,不過考慮人員已經對自編碼器、高斯結合模型、大語言模型進行了驗證。

作者寫道,「天下正在奔向一個將來,生成式AI的爆發,導致了互聯網上的合成數據,很快就會超過真實數據?!?/p>

因此,眼前的AI模型,如今不知不覺中接受越來越多的人工智能合成數據的訓練。

例如,正在已知且開源的最大規模多模態數據集LAION-5B,曾經用于訓練現在最先進的文本-圖像模型,包含Stable Diffusion。

這個數據集就涵蓋了,從早期生成模型中采樣的合成圖像。

合成數據受歡迎的要緊原因在于4點:

- 合成訓練數據比獲取真實世界的樣本更容易、更快、更便宜

- 某種情況下,合成數據增強可以提升AI系統的性能

- 可以在醫學成像或醫療記錄等敏感應用中保護隱私

- 最關鍵一點,隨著深度學習模型參數越來越宏偉,現幾乎沒有真實數據可用了

為了獲取更多真實數據,就連OpenAI近日與美聯社簽訂協議,雙方將共享部分新聞內容和技術。

文件銷毀,產品銷毀,食品銷毀,化妝品銷毀,日化用品銷毀,單據票據銷毀,GDYF

但是,不管是有意,照樣無意使用合成數據,曾經背離了標準的AI訓練實踐:

一代又一代地重復這一過程形成了一個自噬循環(autophagous loop),也就是自耗(self-consuming)。

不同的自噬環變化取決于,現有的真實數據和合成數據怎么組合到未來的訓練聚集。

文件銷毀,產品銷毀,食品銷毀,化妝品銷毀,日化用品銷毀,單據票據銷毀,GDYF

然而,根據合成數據的生成方式,還會展現其他變化。

打個比方,探索者或算法通常會經過手動「挑選」合成數據來引入采樣偏差,以權衡感知質量(即圖像/文本看起來來不錯)與多樣性(不同類型圖像/文本)。

推敲者介紹,「質量」和「多樣性」兩個非鄭重概念,告別與無誤度和召回率的統計指標密切相關。

假設合成數據已經存在于我們今天的訓練數據集合,那么自噬循環在將來幾乎是不可避免的。

那么效率究竟有多大?

思慮人員表示,無論訓練集的組成,或采樣方法怎樣,自噬循環對生成模型的屬性和性能的潛在作用仍知之甚少。

而有一點允許指定的是,使用合成數據重復訓練恐怕會,進一步放大任何生成模型中存在的偏差和偽影。

總之,這項考慮有三個嚴重貢獻:

1. 自噬循環的真實模型

團隊推敲了自噬循環的3種變體:完全合成循環,其中生成模型僅在前幾代的合成樣本上進行訓練;合成增強循環,其中訓練集還囊括一組固定的真實數據;新數據循環,其中訓練集還包含每一代的一組新的真實數據。

所有這3種自噬循環模型的底線是,借如每一代沒有足夠的新鮮真實數據,將來的生成模型必定會MAD。

2. 采樣偏差在自噬循環中起著緊要功用

模型實踐者傾向于手動挑選合成數據,更喜歡高質量的樣本,并刪除低質量的樣本。此外,最先進的生成模型一般具有可控參數,允許以犧牲多樣性為代價來提高合成質量。

商酌標明,經過這種質量多樣性(切實召回)權衡引發的采樣偏差,對自噬訓練循環的行為有重要影響。

具體來講,在沒有采樣偏差的情況下,自噬會導致質量和多樣性的快速下降,而在采樣偏差的情況下,質量允許如舊,但多樣性下降得更快。

3. 自噬循環行為適用于各種生成模型和數據集

除了對簡單多元高斯和高斯混入模型的分析和實證考慮之外,團隊還在正文和附錄中,表明了緊要結論適用于各種生成模型。

部分實驗結果

在沒有采樣偏差的全合成循環中,完全使用合成數據訓練生成模型,其合成數據的質量和多樣性都會逐代下降。

文件銷毀,產品銷毀,食品銷毀,化妝品銷毀,日化用品銷毀,單據票據銷毀,GDYF

在全合成循環中,生成的合成FFHQ和MNIST圖像的FID、精度和多樣性(召回率)

探索者給出了MNIST的真實數據和合成數據的t-SNE圖,這些數據來自沒有采樣偏差的全合成環路(λ =1)。

可以看到,生成的模式進一步合并,相互之間失去了分離。到第10代,生成的樣本幾乎不能辨別。

文件銷毀,產品銷毀,食品銷毀,化妝品銷毀,日化用品銷毀,單據票據銷毀,GDYF

在沒有采樣偏差的情況下,合成數據模型會偏離真實模型并合并

探索還顯示,提升合成質量會損害合成多樣性。

文件銷毀,產品銷毀,食品銷毀,化妝品銷毀,日化用品銷毀,單據票據銷毀,GDYF

在高質量合成數據上訓練生成模型總是會導致合成質量或合成多樣性的損失

因為采樣偏差,合成數據模型會環抱單個(又好又快)圖像偏移和崩潰,而不是合并。

文件銷毀,產品銷毀,食品銷毀,化妝品銷毀,日化用品銷毀,單據票據銷毀,GDYF

給生成數據打水印

所有這些會出現MAD癥狀的模型都早已廣泛應用,并運行一段時間了:

自編碼器可以處置諸如流行推測(譬如社交媒體應用程序的算法)、圖像壓縮、圖像去噪和圖像生成等任務;

高斯融入模型用于密度預計、聚類和圖像分割等目的,在統計學和數據科學中非常有用。

而今流行的 ChatBot, 其應用的大型語言模型(如ChatGPT,和Anthropic的Claude)使用自己生成的內容進行訓練時,也容易在訓練中表現MAD現象。

同時,這些也強調了這些AI系統在我們生活中的要緊性:算法人工智能模型在公司和公共領域都得到了廣泛應用。

這項商量提供了一種窺探「AI技術黑箱」的方法。

但也粉碎了我們從某些AI模型中制造一個「倉鼠輪」的期待:將數據輸入模型,然后將其自己生成的數據再次輸入模型,產生更多的數據再反應進模型的工序。

反而這種訓練方式會對如今存在的模型,以及這些模型的應用造成威脅。

要么一個已經商業化使用的模型事實上是經過對其本身的輸出進行訓練的,那么該模型很或者早已向其平均值回歸(記住,這需要大約5個輸入輸出周期才能涌現)。

文件銷毀,產品銷毀,食品銷毀,化妝品銷毀,日化用品銷毀,單據票據銷毀,GDYF

模型崩潰過程示意圖

假若該模型向其平均值回歸,那么它在某種程度上早已存在著偏見,源于它沒有探索到本應屬于少數派的數據。這也可以稱之為算法上的偏見。

思考結果中得出的另一個嚴重說法是對數據來源的關注?,F在更加重大的是能夠將「原始」數據與「人工」數據區分開來。

倘或不可確定哪些數據是由LLM或生成圖像應用程序創辦的,能夠會不小心將其涵蓋在下一代產品的訓練數據中。

不幸的是,這個問題很抑或已經無從挽回:這些類型的網絡曾經產生了大量未標記的數據,并被納入其他系統中。

雖然我們在ChatGPT或Midjourney的爆發之前占有整個互聯網的快照,但長期以來AI生成的數據平素都在大宗涌入全球網絡,更別說它們運行時產生的巨量數據。

文件銷毀,產品銷毀,食品銷毀,化妝品銷毀,日化用品銷毀,單據票據銷毀,GDYF

模型崩潰成因的示意圖

但即便如此,至少我們已經知道了這一點。

知道這一點,意味著尋找一種可以辨認AI生成內容的水?。ㄟ@是絕對正確的)已經成為一項更為主要和更有利可圖的工作,標記AI生成數據的責任也變得更為嚴酷。

除此之外,還有其他方法允許彌補這些偏差。

其中一種方法是簡單改變模型的權重:擴充分布尾部的結果的相關性或頻率,它們將自然地沿著鐘形曲線移動,靠近均值。這意味著它們就不太容易被修剪掉,從而避免了自動生成訓練中的數據喪失。

模型如故會丟失曲線邊緣的數據,但這些數據不再是唯一的數據來源了。

然則,權重是如何決定的?權重怎么怎樣調整?頻率應該加入多少?

此外,我們也有責任了解模型微調的效用、以及這些用意的后果如何功用模型最終的生成內容。

以上每個問題的回復都會觸發一系列其他問題的關注:

與模型答復背后的真實性相關的問題(其中偏差被稱為幻覺);

模型是否存在偏見,以及這種偏見的根源(要是是來自訓練數據本身或用于成立網絡的權重流程,目前我們也從MAD過程中了解到了);

當模型訓練本身的數據時會發生什么.....但如我們所看到的,最后結果并不理想。

相仿地,這個問題也是不可忽視的:

就像不接觸新知識的人會越來越固步自封和偏執。這與「模型在本身生成的內容上訓練時,它會崩潰」是相同的道理。

模仿資料:

https://www.tomshardware.com/news/generative-ai-goes-mad-when-trained-on-artificial-data-over-five-times

https://arxiv.org/pdf/2307.01850.pdf

https://futurism.com/ai-trained-ai-generated-data

https://www.tweaktown.com/news/92328/scientists-make-ai-go-crazy-by-feeding-it-generated-content/index.html

(舉報)

ChatGPT正版源碼推薦:小狐貍ChatGPT付費創作系統完全開源源碼

 
上一篇:馬斯克宣布:跟“小藍鳥”說再見 下一篇:廢紙一年漲價139%:回收價已較去年翻番

版權所有:Copyright © 2016-2017.廣東益福再生資源回收有限公司 版權所有 粵ICP備17155072號

免费特级毛片不卡|欧美a电影网站导航|2023亚洲Av天堂|永久精品黄色视频