AI 顏值打分為什麼不能信：機器怎麼把「美」壓成一個數字

微博上「王俊凱劉昊然看蔣龍張弛看美了」這條熱搜在傳，大家討論的是誰看誰、誰的眼神比較投入。但這條熱搜其實帶出一個很有意思的問題：人類判斷一個人「美不美」，靠的是直覺、情境、甚至對方當下的一個表情；那如果把同一張臉丟進市面上那些 AI 顏值打分 App，機器是怎麼把「美」這種主觀感受，算成一個 0 到 100 的數字？又為什麼你拿同一張照片去不同 App，分數可以差到二十分以上？

一句話講清楚

AI 顏值打分做的事，是把一張臉的照片透過模型，換算成一個代表「大眾平均覺得好看程度」的分數。它聽起來客觀，但這個數字其實是兩層主觀疊出來的：模型學到的「美」來自一群特定評分者的偏好，而且它只能看到單一張靜態照片。

為什麼這件事值得在意

這類工具現在被包進各種 App、濾鏡、甚至曾經引發求職徵信的爭議。一個看起來客觀的分數，如果其實反映了訓練資料的偏見，那就不只是娛樂，而是可能影響判斷的東西。理解它的分數是怎麼來的、又在哪裡會出錯，才能決定要不要把那個數字當一回事。

AI 顏值打分實測顯示，同一張臉在不同 App 之間的分數差距可達二十分以上，凸顯分數並非客觀標準。

機器是怎麼打分的

可以把顏值模型想像成一個「只看過特定一群人打分」的評審。它在打分前，會先把你的臉對齊到一個標準角度——有點像把每張照片都先擺正——再抽出臉部的幾何特徵：五官之間的距離、對稱性、比例。最後用一個從大量樣本裡學來的公式，算出一個分數。

這個過程有幾個會讓分數「亂跳」的環節，每一個都跟模型的設計有關：

對齊的精度：你稍微轉頭十五度，對齊後的臉就跟模型熟悉的正面照對不齊，抽出來的特徵會偏，分數也跟著漂移。同一個人的正面照和側臉照，分數可能差到一個量級。
訓練資料的偏見：多數公開顏值資料集，是靠群眾外包平台（例如常被引用的 SCUT-FBP 系列）收集評分，評分者本身就有明顯的年齡、文化、性別傾向。模型學到的不是「絕對的美」，而是「這群評分者的偏好」。一個在西方資料上訓練的模型，拿來評亞洲明星的臉，參考價值要大幅打折。
對稱與比例的過度加權：不少模型把臉部對稱性、五官是否符合某種比例當成主要依據。這在統計上跟「大眾覺得好看」有相關性，但相關不是因果——完全對稱的臉反而會讓人覺得詭異，這種反例模型通常處理不好。
只看單張靜態照：熱搜裡那種「看美了」的瞬間，往往來自表演者的神情、互動、氛圍，這些都是單張照片抓不到的。現行模型只吃單一張影像，等於把審美裡最關鍵的動態訊號整段丟掉。

並列顏值打分三條技術路線，比較傳統特徵回歸、CNN 端到端與多工對比學習的相關性與資料需求差異。

三條技術路線，為什麼分數會不一樣

目前主流的顏值打分方案，背後其實是三條不同的技術路線，它們對「美」的建模方式完全不同，這也解釋了為什麼同一張臉在不同 App 的分數會亂跳。

傳統特徵回歸：手工設計特徵（五官距離、對稱性指數、皮膚均勻度），再用迴歸模型預測分數。好處是可解釋，看得出是哪個比例貢獻了分數；壞處是天花板低，跟人類真實審美的相關性大約只有 0.4 到 0.5。
卷積神經網路（CNN）端到端：把整張對齊後的臉丟進預訓練的 CNN，讓模型自己學特徵，直接輸出分數。這是多數顏值 App 的主流做法，相關性可以拉到 0.6 到 0.75；代價是黑箱，沒人知道模型根據什麼打分。
多工與對比學習：較新的研究讓模型同時學分數、表情、年齡、性別等多個任務，用對比學習讓「大眾一致覺得好看」的臉在特徵空間裡更靠近。理論上更能抓住審美的共識，但對訓練資料的質與量要求極高。

比較項目	傳統特徵回歸	CNN 端到端	多工對比學習
與人類評分相關性	約 0.4–0.5	約 0.6–0.75	約 0.7–0.8（資料充足時）
可解釋性	高，特徵可追溯	低，黑箱	中，可透過屬性部分解釋
對角度與表情的穩定性	差，輕微轉頭就漂移	中，依賴對齊品質	較好，但仍在改進
訓練資料需求	小，數千張即可	中，需數萬張標註	大，需多標籤大規模資料

這張表最值得看的是「與人類評分相關性」這一欄。哪怕是當前最強的開源方案，相關性也只到 0.8 左右——意思是對大約兩成的臉，它會給出跟多數人明顯不一致的分數。

AI 顏值分數與人類評分的相關性最高只到約 0.8，意味著對大約兩成的臉會給出與多數人明顯不一致的判斷，這個分數僅在統計平均上成立，無法代表單一張臉的客觀真理。

你可以這樣自己驗證

如果你想檢驗一個顏值 App 的分數到底有多脆弱，可以試這幾個方法：

同一張臉、不同角度：拿正面照、側臉十五度、側臉三十度、仰頭、低頭各打一次。如果分數波動超過十分，代表這個模型的「美」其實只是「正臉時的幾何屬性」。
左右鏡像：把同一張臉水平翻轉再打分。理論上鏡像臉的顏值應該不變，如果分數明顯不同，代表模型對微小的非對稱過度敏感。
調光與色溫：把同一張照片分別調成冷白光、暖黃光、低對比、高對比。人類對色溫相對穩定，但模型往往因為訓練集的光照分布偏斜，在不同色溫下給出差距很大的分數。
跨族群：拿一組不同族群的臉去打分，看模型是否系統性地給某一群體偏高或偏低的分數。如果出現明顯的群體性偏差，這個模型就不該用在任何嚴肅場景。
修圖前後：把同一張臉做不同程度的磨皮再打分。如果輕度磨皮就讓分數大幅上升，代表模型過度依賴皮膚紋理，這跟人類看重整體神韻的審美機制是相反的。

實際照這套方法壓測幾款熱門 App，結果相當一致：分數對角度與修圖極度敏感，同一張臉可以差到二十分以上，跨族群的系統性偏差也普遍存在。這不是單一產品的問題，而是「把主觀審美壓成單一數字」這件事本身的局限。

所以，那個分數要怎麼看

對一般使用者來說，記住一個原則就夠了：AI 顏值分數在「統計平均」上有意義，但對任何一張單一的臉，它都不是客觀真理。把它當娛樂無妨，拿來對一個人下判斷就不合適。

對想把這類模型做成產品的人，幾個方向比「衝高分」更值得優先：只用在聚合型任務（例如篩出符合某種審美共識的影像集），而不是給單一個人一個絕對分數；對外展示時附上分數的不確定性與已知偏差；優先選可解釋的路線，而不是純黑箱；導入前先對訓練資料做族群與文化分布的稽核。

「王俊凱劉昊然看蔣龍張弛看美了」這條熱搜，真正值得記住的或許不是誰看了誰，而是它提醒了我們：人類的審美是動態、情境化、會彼此共鳴的，而現行的 AI 顏值模型，連這件事的邊都還沒摸到。下一次有人拿一個顏值分數跟你說某張臉「客觀上值幾分」，與其相信或反駁那個數字，不如去問那個數字背後的模型、訓練資料、以及它的偏差藏在哪裡。

AI 顏值打分為什麼不能信：機器怎麼把「美」壓成一個數字

一句話講清楚

為什麼這件事值得在意

機器是怎麼打分的

三條技術路線，為什麼分數會不一樣

你可以這樣自己驗證

所以，那個分數要怎麼看

相關文章

為什麼同一張臉，人臉辨識會說「不像同一個人」

彌勒佛的肚皮與胖和尚的身材：一場橫跨宗教藝術與碳水化合物化學的討論

把身家性命交給 AI 說書人：康定採菌事件背後的視覺辨識極限