大模型狂熱兩年後,vivo 決定幫 AI 走出“暗室”

大模型狂熱兩年後,vivo 決定幫 AI 走出“暗室” -
大模型狂熱兩年後,vivo 決定幫 AI 走出“暗室” -
作者|何晴
編輯|重點君

在全民養蝦的今天,看似無所不能的ai卻存在一個根本性缺陷

楊立昆等三位學者在20263月剛剛發表的聯合論文中指出,當前ai缺乏與環境的真實交互,過度依賴語言訓練,讓ai忽視了空間感知、具身認知以及對物理世界的推理。換句話說,ai被困在數據的黑屋子裡。它能解答拋向它的問題,卻無法從真實世界中學習。

這個困局在20261月的ces上被正式命名。黃仁勛在演講中17次提及一個詞——“物理ai”physical ai),意指讓攝像頭、機器人和自動駕駛汽車等自主系統能夠在物理世界中完成感知、理解、推理,並執行複雜操作。他形容這是ai的又一個“chatgpt時刻”。

一個月後,博鰲亞洲論壇,vivo總裁胡柏山給出了一個更落地的答案:給ai裝眼睛。他認為,ai要從虛擬世界走進現實,必須建立自己的感知體系,而感知的基礎,是影像。搭載着攝像頭的手機,正是ai落地的第一現場

這不是技術路線之爭,而是一個根本追問:ai要真正改變物理世界,它缺的到底是什麼?

vivo在這條路上的探索在即將發布的x300 ultrax300s上初現輪廓。20263月,vivomwc上發布了行業首個端側實時相機ai agent。用戶再進行繁瑣的攝影調參步驟,手機自動識別場景、優化參數、推薦構圖,甚至預判拍攝對象的運動軌跡。

事實上,當ai火到下半場,ai大腦越來越強大,我們對它的期待是否可以再進一步?不是讓它更會思考,而是讓它真正看見。畢竟,ai要真正改變物理世界,缺的不是大腦,是一雙眼睛

  ai暗室困境

如果復盤過去兩年ai的發展路徑,可以看到一個明顯的偏向:行業在集中造大腦。模型越來越強,但問題也越來越明顯。

今天的大模型,本質上是對歷史數據的高度壓縮與重組。它們可以生成內容、給出決策建議,但這些能力的前提,是已有知識。一旦進入實時、動態、不可預知的物理世界,問題就出現了,ai無法實時感知環境,無法驗證用戶輸入的信息,也無法建立連續的空間理解 。舉個例子,ai能寫詩、能編程、能通過律師資格考試,但無法準確描述你面前這杯咖啡的溫度,也無法理解一隻貓從桌上跳下來時的身體協調邏輯。

胡柏山在博鰲給出了一個形象的比喻:沒有感知能力,ai是困在黑屋子裡的大師,算力再強,也看不見咫尺之外的世界。

大模型狂熱兩年後,vivo 決定幫 AI 走出“暗室” -

於是,一個行業性的暗室困境浮出水面:當所有人都在卷大模型參數、捲雲端算力時,ai其實還缺一雙真正的眼睛

這也是為何ai狂熱時代下,vivo依然在影像上押重注。模型能力最終會被拉平,誰能讓ai更好地感知物理世界,誰就能在ai下半場佔據先機。

當手機通過全焦段4k 120fps視頻錄製、端側實時相機ai agent,把物理世界轉化為ai可以理解的數字信號時,它就不再是簡單的記錄工具,而是能主動感知、理解、行動的數字夥伴。這是從smart phoneagent phone的第一步。這也是vivoai時代交出的自己的答卷。

vivo敢做這個反常選擇的原因,正是因為它有一套獨屬於自己的產品哲學——不追逐風口,而是回歸用戶真實可感知的價值。

  vivo的不為哲學

如果將vivo的戰略表述置於更長的時間維度去觀察,便能窺見其獨有的戰略定力——擇其不為,進而有為。在行業這場ai狂歡中,vivo始終保持着清醒與冷靜

從技術趨勢看,vivo沒有第一時間all in通用大模型,甚至在一些熱門賽道上主動踩剎車。

但如果換一個視角——從用戶出發,這條路徑反而變得清晰。

在採訪中,胡柏山反覆強調一個判斷:用戶要的不是功能,而是體驗。這句話看似簡單,決定了vivoai時代幾乎所有戰略取捨。

20261月,vivo叫停了籌備近半年的ai眼鏡項目的消息引發行業熱議。胡柏山在訪時道出了背後的思考第一,這個品類能否做出差異化?如果沒有差異化,很快就會陷入同質化,最終淪為價格。第二,這個東西對用戶而言是否足夠剛需?ai眼鏡或許能在部分細分場景里能滿足剛需,但對多數用戶來說並非必需。第三,我們做產品,不想只做一個60分,必須要做到80分以上。

這不是vivo首次在風口面前選擇不為。不盲目去追逐openclaw,也不刻意追求大參數模型的比拼vivo始終有着自己的一套ai戰略邏輯。

這套邏輯的底層,是vivo一以貫之的用戶導向”——所有戰略取捨的出發點,從來不是技術能否實現,而是用戶能否真實感知到產品的價值。正如vivo創始人沈煒在2026年新年致辭中所意識不等於能力,共識不等於結果。”vivo要把用戶導向從意識上的重視,轉化為可復用、可沉澱的系統化洞察與認知體系。

因此,當行業陷大模型參數軍備競賽陷入概念炒作與風口追逐的漩渦時,vivo選擇將核心資源聚焦在一個關鍵命題上:如何讓手機更好地感知物理世界,從而更懂用戶?而為博取市場噱頭而盲目入局。

大模型狂熱兩年後,vivo 決定幫 AI 走出“暗室” -

於是,我們可以看到的是,vivo將資源聚焦在了感知能力賽道,讓手機這個最貼近用戶的設備,長出感知物理世界的眼睛。在影像技術領域,vivo已經深耕多年。從傳感器、光學系統到影像芯片與算法協同,影像能力早已被vivo拆解為一整套系統工程。自研藍圖傳感技術、藍圖算法矩陣及藍圖影像芯片,vivo在硬件與算法的協同上形成了獨特的護城河。這種能力,正是其在ai時代構建感知體系的技術底座。

2026年,vivo在博鰲正式宣布成立感知賽道,融合視覺、聽覺、觸覺等多模態能力,通過傳感器與感知大模型,把物理世界的各類信息轉化為機器能讀懂的數字信號。在胡柏山看來,這正是最關鍵的差異化所在:未來大模型之間的差異不會太大,真正決定智能體體驗好壞的,關鍵就是場景數據,這是無法替代的。

ai領域,vivo的布局也遠比外界想象的要早。胡柏山在博鰲演講中透露:我們ai團隊已經建立有10年了,在這個方向上的投入決心是比較大的。這約1000人的ai團隊分布在vivo全球多個研發中心,其中杭州算法研究信息中心是vivo影像算法的核心基地,新建立的vivo 杭州研發中心也將於明年將投入使用。

而在這個充滿fomo情緒的時代,vivo不做什麼劃定了自己的邊界,也找到了穿越周期的確定性。

  ai時代的眼睛之戰

如今,物理ai”的浪潮正在加速。

根據acumen research and consulting發布的報告,全球physical ai市場預計於2026年達64.4億美元,2035年將增長至827.9億美元,年複合增長率高達32.8%。報告指出,計算機視覺是該市場中規模最大、增長最快的技術領域。

vivo的布局正與這一趨勢同步。胡柏山在博鰲透露的vivo的布局,也比手機更遠。

vivo內部,感知能力被定義為一級技術賽道。它不僅服務手機,更指向一個更遠的目標,即物理世界的智能化接口。這條路徑可以分為三層:手機是最便捷、場景最密集的入口,空間設備(mr)能夠訓練空間理解能力,機器人則能進入真實的物理世界操作。

為了實現物理ai的目標,一部分公司從雲端模型出發,向下延伸,另一部分,從機器人具身能力出發,向上補智能。

vivo選擇從感知切入,向兩端延展。

20253月,vivo正式宣布成立機器人lab,首次披露進軍家庭機器人領域的戰略規劃。而vivo專註於研發家庭機器人的大腦ai決策系統)和眼睛(空間感知與視覺系統)。這種漸進式推進,不追求一步到位的戰略 ,被胡柏山稱之為沿途下蛋策略。這也是vivo用戶導向思路的延伸。

在博鰲演講的結尾,胡柏山講了兩個故事。一個是失明的寶哥,帶着導盲犬和vivo手機環遊中國,“vivo看見幫他記住了每個人的樣子;另一個是諾子,在冰島的冰河湖旁,手機ai為她講述眼前的景象:湖面漂浮着冰塊,遊客在拍照,遠處有海鳥飛過。

這兩個例子不僅讓我們看到技術可以有溫度,也讓我們意識到,ai開始介入人的感知

當影像記錄記憶,ai學習習慣,兩者融合後,這種感知能力從手機延伸至頭顯、機器人,構建視覺+大腦的生態平台,最終每個人擁有可傳承的數字dna”。這意味着, 智能設備不僅可以理解人的行為 ,還能理解行為背後的偏好、情緒與關係,並持續積累、遷移、進化 ,這可能正是agent phone的終局形態。不是一個更聰明的工具,而是一個持續理解你的系統。

胡柏山在採訪最後說了一句話:科技的高度,終須回歸人的尺度。

vivo選擇用影像這雙眼睛,替人類去看見、去理解、去改變這個物理世界。這種路徑可能不夠快,但足夠紮實——因為它始終圍繞着用戶真實可感知的價值。

在這個ai狂飆突進的時代,這句話或許是對當下fomo情緒最好的提醒。

分享你的喜愛