朱自清《荷塘月色》AI率超60%,怎麼回事?專家的回答出乎意料

還記得朱自清的《荷塘月色》嗎? 「曲曲折折的荷塘上面,彌望的是田田的葉子。葉子出水很高,像亭亭的舞女的裙…」

這篇全文1361字的經典散文,今天幾乎在熱搜上掛了一天。起因是有網友發現,它被某AI檢測工具判定:AI疑似生成率超過60%。

  

評論區頓時炸開了鍋。有網友調侃,「那我的論文AI率80%,是不是也正常了?」也有網友懷疑,AI率是隨機生成的;還有網友爆料,同一篇文章,不同平台查出的AI率相差30%。

這到底是怎麼一回事? AI率檢測工具究竟靠不靠譜?橙柿互動記者跟西湖大學文本智慧實驗室博士、Fast-DetectGPT研發者之一鮑光勝聊了聊。

他的第一個回答,就有點出乎意料。

  “大家對AI率有誤解”

關於AI率,鮑光勝認為,大家首先可能存在一個誤解。 「例如一篇文章檢測出AI率60%,並不是說每100個字裡面,就有60個字是AI寫的。AI率其實是指一篇文章有​​多大機率由AI生成,60%就意味著它有60%的機率由AI整體生成。

檢測工具其實無法分辨,也無法告訴你哪幾個字出自AI之手。 “因為一兩個字的微觀層面,人類和AI的差別幾乎看不出來。”

那它是怎麼來判斷的?簡單說,就是在宏觀層面尋找統計上的線索。例如在用詞方面,AI會有相對固定的偏好,某個冷門詞出現的頻率如果遠高於人類平均水平,就會成為一個統計的訊號。

鮑光勝舉了一個例子:有研究發現,大模型應用於英語學術論文寫作時,單字delve(深入研究)的使用頻率大幅提高,「這時,就可以拿它作為一個信號或者說特徵」。

但這種特徵是統計意義上的,「它需要在一篇文章中反覆出現某些可被檢測的信號。因此,如果只給出一段很短的文字,是無法準確判斷是否為AI所寫。」鮑光勝認為,目前的檢測工具對於100字以下「小作文」的判斷通常不太準確,到了500字左右,結果就比較可信了。

  荷塘月色》是怎麼被誤傷的

那麼,《荷塘月色》超60%的AI率是怎麼回事?

  

「以現在的檢測技術,如果是全新寫的文章,AI率可能更準些,老文章反而不一定。」鮑光勝先給了一個結論。

原因很簡單,就是那些膾炙人口的經典文本,絕大部分早就被用來訓練大模型。

「AI檢測的基本原理是這樣的,你的一篇文章放到大模型,看它的用詞、詞頻分佈等,和模型預測的分佈是否一致。」通常情況下,如果是AI生成的文字,那它和模型的預測會比較一致。

於是,問題來了:當AI檢測工具遇到在學習階段就「讀」過的經典文本,這種「一致性」就會因為模型熟悉這些表達而變得很高,進而傾向於判斷文章是AI寫的。

《荷塘月色》大概率就是這樣被誤傷了。

  AI模仿的是整個人類的寫作共通性

在評論區的熱門位,有網友反映自己的同一篇文章,不同平台查出的AI率相差30%。鮑光勝說:這太正常了。

市面上各個檢測工具用的演算法不一樣,有的主要看詞頻,有的側重語法,有的看語意。單獨一篇文章,差30%一點都不奇怪。 」

今天的熱搜裡,也提到了一個現象:有些平台一邊賣AI生成論文,一邊又提供降AI率服務。

「這就是互相攻防。」鮑光勝繼續解釋。

降AI率的原理,說起來並不神秘:研究市面上的檢測工具喜歡抓什麼訊號或特徵,例如某個字用得太頻繁,那就把它換成另一個意思相近的字。“更換後意思不變,但檢測工具就抓不到了。”

他同時也提到,對抗檢測最好的方式或許是保持自己的寫作風格。

「AI是在模仿整個人類的寫作共通點。如果你有非常獨特的個人風格,AI反而不太容易抓住。」這就是為什麼有些人的文章AI率很高,而另一些人卻沒事,後者可能天生就不按套路寫。

  AI偵測AI,未來是持續的攻防戰

鮑光勝博士研究的方向是AI生成文本檢測,他從2022年底ChatGPT問世後就開始關注這個問題。

「當時覺得隨著AI應用的普及,它會變得越來越嚴重。網路上AI生成內容越來越多,會侵蝕人與人之間的信任,例如教育場景中的師生關係。另外,AI生成的東西,人類單靠自己會越來越難分辨,需要『AI檢測AI』」。

他所在的西湖大學文本智慧實驗室研發了Fast-DetectGPT,這是一個可以快速且準確地檢測文字是否由AI產生的工具,相關成果發表在國際會議ICLR 2024。

鮑光勝坦言,未來會是持續的攻防戰,大模型越來越強,AI檢測技術跟著升級,然後新的模型又來了…

「網路上不少人可能覺得檢測工具說這篇文章是AI寫的,那就一定是。但任何AI檢測工具給的都只是機率,這個機率有一定可能是錯的。」他強調說,這個觀念,才是最需要傳遞給大家的。

至於有學生網友在網上“喊冤”,說自己手搓的論文被判了高百分比的AI率,鮑光勝給出了三種可能:要么不是完全自己寫的,要么不自覺受了AI模板影響,要么就是檢測工具本身不准。 「越來越多人在寫作中用AI給的模板做參考或直接潤飾文字,AI已經在影響人類的用語習慣。

橙柿互動·都市快報記者童蔚

編輯陳筱妍

審核張倩陳欣文

校對馬玉君

分享你的喜愛