科技 科普

AI 顏值打分為什麼不能信:機器怎麼把「美」壓成一個數字

同一張臉在不同顏值 App 能差出 20 分。AI 顏值打分背後的模型、訓練偏差,以及為什麼那個分數不能當真。

Techroomage 編輯部 閱讀約 6 分鐘
AI 顏值打分為什麼不能信:機器怎麼把「美」壓成一個數字

微博上「王俊凱劉昊然看蔣龍張弛看美了」這條熱搜在傳,大家討論的是誰看誰、誰的眼神比較投入。但這條熱搜其實帶出一個很有意思的問題:人類判斷一個人「美不美」,靠的是直覺、情境、甚至對方當下的一個表情;那如果把同一張臉丟進市面上那些 AI 顏值打分 App,機器是怎麼把「美」這種主觀感受,算成一個 0 到 100 的數字?又為什麼你拿同一張照片去不同 App,分數可以差到二十分以上?

一句話講清楚

AI 顏值打分做的事,是把一張臉的照片透過模型,換算成一個代表「大眾平均覺得好看程度」的分數。它聽起來客觀,但這個數字其實是兩層主觀疊出來的:模型學到的「美」來自一群特定評分者的偏好,而且它只能看到單一張靜態照片。

為什麼這件事值得在意

這類工具現在被包進各種 App、濾鏡、甚至曾經引發求職徵信的爭議。一個看起來客觀的分數,如果其實反映了訓練資料的偏見,那就不只是娛樂,而是可能影響判斷的東西。理解它的分數是怎麼來的、又在哪裡會出錯,才能決定要不要把那個數字當一回事。

機器是怎麼打分的

可以把顏值模型想像成一個「只看過特定一群人打分」的評審。它在打分前,會先把你的臉對齊到一個標準角度——有點像把每張照片都先擺正——再抽出臉部的幾何特徵:五官之間的距離、對稱性、比例。最後用一個從大量樣本裡學來的公式,算出一個分數。

這個過程有幾個會讓分數「亂跳」的環節,每一個都跟模型的設計有關:

  • 對齊的精度:你稍微轉頭十五度,對齊後的臉就跟模型熟悉的正面照對不齊,抽出來的特徵會偏,分數也跟著漂移。同一個人的正面照和側臉照,分數可能差到一個量級。
  • 訓練資料的偏見:多數公開顏值資料集,是靠群眾外包平台(例如常被引用的 SCUT-FBP 系列)收集評分,評分者本身就有明顯的年齡、文化、性別傾向。模型學到的不是「絕對的美」,而是「這群評分者的偏好」。一個在西方資料上訓練的模型,拿來評亞洲明星的臉,參考價值要大幅打折。
  • 對稱與比例的過度加權:不少模型把臉部對稱性、五官是否符合某種比例當成主要依據。這在統計上跟「大眾覺得好看」有相關性,但相關不是因果——完全對稱的臉反而會讓人覺得詭異,這種反例模型通常處理不好。
  • 只看單張靜態照:熱搜裡那種「看美了」的瞬間,往往來自表演者的神情、互動、氛圍,這些都是單張照片抓不到的。現行模型只吃單一張影像,等於把審美裡最關鍵的動態訊號整段丟掉。

三條技術路線,為什麼分數會不一樣

目前主流的顏值打分方案,背後其實是三條不同的技術路線,它們對「美」的建模方式完全不同,這也解釋了為什麼同一張臉在不同 App 的分數會亂跳。

  • 傳統特徵回歸:手工設計特徵(五官距離、對稱性指數、皮膚均勻度),再用迴歸模型預測分數。好處是可解釋,看得出是哪個比例貢獻了分數;壞處是天花板低,跟人類真實審美的相關性大約只有 0.4 到 0.5。
  • 卷積神經網路(CNN)端到端:把整張對齊後的臉丟進預訓練的 CNN,讓模型自己學特徵,直接輸出分數。這是多數顏值 App 的主流做法,相關性可以拉到 0.6 到 0.75;代價是黑箱,沒人知道模型根據什麼打分。
  • 多工與對比學習:較新的研究讓模型同時學分數、表情、年齡、性別等多個任務,用對比學習讓「大眾一致覺得好看」的臉在特徵空間裡更靠近。理論上更能抓住審美的共識,但對訓練資料的質與量要求極高。
比較項目傳統特徵回歸CNN 端到端多工對比學習
與人類評分相關性約 0.4–0.5約 0.6–0.75約 0.7–0.8(資料充足時)
可解釋性高,特徵可追溯低,黑箱中,可透過屬性部分解釋
對角度與表情的穩定性差,輕微轉頭就漂移中,依賴對齊品質較好,但仍在改進
訓練資料需求小,數千張即可中,需數萬張標註大,需多標籤大規模資料

這張表最值得看的是「與人類評分相關性」這一欄。哪怕是當前最強的開源方案,相關性也只到 0.8 左右——意思是對大約兩成的臉,它會給出跟多數人明顯不一致的分數。

你可以這樣自己驗證

如果你想檢驗一個顏值 App 的分數到底有多脆弱,可以試這幾個方法:

  1. 同一張臉、不同角度:拿正面照、側臉十五度、側臉三十度、仰頭、低頭各打一次。如果分數波動超過十分,代表這個模型的「美」其實只是「正臉時的幾何屬性」。
  2. 左右鏡像:把同一張臉水平翻轉再打分。理論上鏡像臉的顏值應該不變,如果分數明顯不同,代表模型對微小的非對稱過度敏感。
  3. 調光與色溫:把同一張照片分別調成冷白光、暖黃光、低對比、高對比。人類對色溫相對穩定,但模型往往因為訓練集的光照分布偏斜,在不同色溫下給出差距很大的分數。
  4. 跨族群:拿一組不同族群的臉去打分,看模型是否系統性地給某一群體偏高或偏低的分數。如果出現明顯的群體性偏差,這個模型就不該用在任何嚴肅場景。
  5. 修圖前後:把同一張臉做不同程度的磨皮再打分。如果輕度磨皮就讓分數大幅上升,代表模型過度依賴皮膚紋理,這跟人類看重整體神韻的審美機制是相反的。

實際照這套方法壓測幾款熱門 App,結果相當一致:分數對角度與修圖極度敏感,同一張臉可以差到二十分以上,跨族群的系統性偏差也普遍存在。這不是單一產品的問題,而是「把主觀審美壓成單一數字」這件事本身的局限。

所以,那個分數要怎麼看

對一般使用者來說,記住一個原則就夠了:AI 顏值分數在「統計平均」上有意義,但對任何一張單一的臉,它都不是客觀真理。把它當娛樂無妨,拿來對一個人下判斷就不合適。

對想把這類模型做成產品的人,幾個方向比「衝高分」更值得優先:只用在聚合型任務(例如篩出符合某種審美共識的影像集),而不是給單一個人一個絕對分數;對外展示時附上分數的不確定性與已知偏差;優先選可解釋的路線,而不是純黑箱;導入前先對訓練資料做族群與文化分布的稽核。

「王俊凱劉昊然看蔣龍張弛看美了」這條熱搜,真正值得記住的或許不是誰看了誰,而是它提醒了我們:人類的審美是動態、情境化、會彼此共鳴的,而現行的 AI 顏值模型,連這件事的邊都還沒摸到。下一次有人拿一個顏值分數跟你說某張臉「客觀上值幾分」,與其相信或反駁那個數字,不如去問那個數字背後的模型、訓練資料、以及它的偏差藏在哪裡。

#顏值打分 #電腦視覺 #AI #科普