紅海之上的新藍海:沒人注意到,聆思已經拿下了半個消費級AI 視覺| 前沿在線

編輯:前沿線上編輯部

2026 年的視覺產業,正在上演最撕裂的一幕。

一邊是傳統市場的屍橫遍野:

影像賽道,手機相機捲到2 億像素也賣不動,相機廠商在全畫幅的參數競賽裡互相殘殺;安防賽道,海康大華雙寡頭壟斷了全球70% 的市場,中小廠商只能靠價格戰苟活。

這個年規模數百億美元的成熟市場,早就被瓜分完畢,連一絲縫隙都沒留給新玩家。

所有人都在說:視覺市場太捲了,沒機會了。

但很少人注意到,在這片紅海之上,一個全新的萬億級增量市場正以30% 的年增速瘋狂爆發

它不拼像素,不拼畫質,甚至不要求看得多清楚。

它拼的是影像和場景結合之後,能創造什麼樣的應用價值;而這些價值,正悄無聲息地滲透進你生活的每一個角落,把很多曾經只存在於科幻片裡的功能,變成了所有人習以為常的日常。

在內容創作賽道,自動跟拍早就不是專業攝影師的專屬技能。

從幾十塊錢的桌上雲台到幾千塊的手持穩定器,

再到能翻山越嶺的消費級無人機,辨識人臉自動跟拍、智慧構圖已經成了業界標配。

現在就算是剛入門的新手博主,不用麻煩別人舉相機,不用手動調角度,一個人就能拍出絲滑流暢的vlog 和直播畫面。

在教育場景,離線OCR 辨識讓掃描筆成了中小學生的必備文具。

不用連網,不用等雲端加載,掃一下單字就能出發音、釋義和例句,甚至連整段文字的翻譯都能一秒完成。

除此之外,能辨識坐姿的學習桌、能批改作業的智慧檯燈,也都靠著視覺能力,重新定義了教育硬體的型態。

在智慧家庭裡,視覺正在成為語音之外更自然的互動方式。

門鎖不用掏鑰匙,掃臉就能開門;

風扇不用手動搖頭,能精準辨識人體位置跟著吹;

電視不用找遙控器,手勢就能快轉暫停;甚至連空調都能依照房間裡的人數和位置,自動調整風向和溫度。

就連曾經最傳統的玩具賽道,視覺也成了不可或缺的核心能力。

能跟著孩子跑的AI 陪伴機器人、

能辨識手勢的互動積木、能自動追蹤足球的玩具車…

這些曾經只能靠遙控器操作的玩具,現在都能”看見” 世界,和孩子產生真正的互動。

這就是消費級AI 視覺

它不是傳統視覺的升級,而是一場徹頭徹尾的革命。

它把視覺從一個”記錄工具”,變成了一個”互動入​​口”,重新定義了幾乎所有智慧硬體的形態。

而在這個所有人都沒看懂的新市場裡,唱主角的不是高通,不是英偉達,不是海康大華,而是一家你可能連名字都沒聽過的公司——聆思科技

提到聆思,99% 的人的第一個反應都是:“哦,那個要做語音晶片的。”

這沒錯。

你家裡的美的、海爾、海信冷氣,喊一聲就能開關調溫的那種,十台有九台用的都是它的CSK 系列晶片。在家電語音這個賽道,聆思早就做到了絕對統治,截至2026 年3 月,五大系列AI 晶片累計出貨已突破1.5 億顆。

這家成立於2020 年的公司,是安徽省及合肥市國資平台在端側AI 領域的重點投資佈局企業,還有元禾璞華、澐柏、天際、盈科、訊飛創投等一線資本加持。

但幾乎​​沒人知道,這家靠語音起家的公司,已經悄悄把戰火燒到了AI 視覺。

過去三年,它累計賣出了超過3000 萬套視覺方案,涵蓋了從雲台、掃描筆到智慧門鎖、會議攝影機的幾乎所有消費級視覺場景。

在桌上跟拍雲台這個品類,它的市佔率已超過80%;在掃描筆市場,它的方案更是成了業界事實標準。

當整個AI 晶片產業都在卷大算力、卷先進製程、喊著”幹翻英偉達” 的時候,聆思走了一條完全相反的路:不做Linux,不堆TOPS,不炒概念,用一套全球首個大規模商用的RTOS 軟硬協同方案,硬生生在巨頭環伺的市場裡,撕開了一道萬億級的口子。

今天我們就聊聊這個藏在你生活裡的隱形冠軍,以及它戳破的整個AI 晶片產業最大的謊言。

今年很多AI 硬體老闆,都在罵Linux 晶片

2026 年開年,我認識的所有做AI 硬體的創辦人,沒有一個不罵Linux 晶片的人。

不是情緒發洩,是真的活不下去了。

2026 年開年以來,所有主流Linux AI 晶片全線漲價,核心原因是全球AI 需求爆發導致記憶體產能嚴重不足。

TrendForce 數據顯示,2026 年第一季常規DRAM 合約價格季比上漲93-98%NAND 合約價也漲了85%~90%,預期2026 年第二季DRAM 合約價將上漲58%~63%、NAND 合約價漲幅更預估高達70%~75%。

DDR5 記憶體價格在半年內也暴漲約300%,连曾经以性价比著称的 Raspberry Pi 5 价格也上涨了 150%。

對於依賴外掛大容量記憶體的Linux AI 晶片來說,這意味著BOM 成本直接上漲2-3 倍。

過去五年,整個產業默認了一個不容置疑的”標準答案”:做AI 視覺,必須用Linux 晶片。

理由聽起來天經地義:Linux 生態完善,GitHub 隨便搜就能找到開源演算法,開發者拿來就能用,根本不用考慮記憶體限制、資源分配這些破事。只要堆夠0.5T 以上的算力,什麼人形追蹤、OCR 辨識、手勢控制,通通都能跑。

但這個”標準答案”,從一開始就是裹著糖衣的毒藥。

為了跑Linux 系統和臃腫的開源演算法,晶片必須外掛大容量DDR 記憶體和eMMC 存儲,外圍電路複雜得像蜘蛛網。

算下來,單是晶片+ BOM 成本就要幾百塊,最後反映到終端產品上,就是售價居高不下:

  • 三年前,有AI 跟拍的雲台普遍賣3000 塊以上

  • 一支能離線翻譯的掃描筆,要價1000 元起步

  • 稍微帶點人臉辨識的門鎖,沒有500 塊拿不下來

更離譜的是算力浪費。

為了涵蓋所有可能的場景,Linux 晶片設計了大量通用模組。

但在具體的視覺任務裡,80% 的算力都是空轉的。標稱1T 的晶片,真正能用在人形追蹤上的,可能連0.2T 都不到。剩下的算力,除了費電和漲價,沒有任何用處。

“就像你買了一輛12 缸的勞斯萊斯,天天在小區裡買菜開,油耗高得嚇人,速度還不如電動車。”

深圳一家硬體廠商的CTO 跟我吐槽,”但沒辦法,業界只有這個方案能用。”

今年的漲價,成了壓垮駱駝的最後一根稻草。

很多中小廠商算了一筆帳:原來BOM 成本50 塊的產品,現在漲到150 塊,終端售價要翻一倍才能保本,根本賣不動。不少已經立項半年的項目直接砍了,還有的廠商乾脆清庫存轉行。

那有沒有更便宜的替代方案?

有,即時作業系統

RTOS 是一種輕量級即時作業系統,體積只有幾百KB,不用外掛內存,BOM 成本只有Linux 方案的1/3,功耗只有後者的一半。理論上,它才是消費級AI 視覺的最佳選擇。

但在很長一段時間裡,整個產業都沒能拿出一個能用的RTOS 視覺方案。

不是沒人試過,是做出來的都是垃圾:馬達轉起來一頓一頓的,手勢比半天沒反應,人稍微走快點就跟丟,稍微擋一下就直接原地罷工。

問題出在哪?

RTOS 的記憶體只有Linux 的零頭,開源演算法直接丟進去,根本跑不起來。必須把演算法拆到原子級,一點點裁剪、最佳化、重寫,才能在有限的資源中流暢運作。

這是一個極其苦、極其累、極其考驗技術功底的活,而且沒有任何捷徑可走。

但整個產業鏈,沒有人願意做這個活:

  • 晶片大廠不會乾:他們只賣晶片,養幾百個演算法團隊不划算

  • 演算法公司不會乾:他們不懂晶片底層,再怎麼優化也達不到要求

  • 終端廠商更不會幹:他們連自己的演算法團隊都沒有,全靠第三方外包

更坑的是第三方算法公司。

他們給A 廠商做的演算法,放到B 廠商的晶片上就跑不動;換個攝影機型號,又要重新適應。最後錢沒少花,時間沒少耗,做出來的產品還是一堆問題。

整個產業就卡在這裡了:貴的用不起,便宜的不好用。

所有人都在等一個破局者。

沒人想到,最後破局的是一家做語音的公司

2023 年,當整個產業還在Linux 的泥潭裡掙扎的時候,聆思悄悄丟出了第一代RTOS 視覺方案。

整個產業都炸了。

沒人想到,最後把這事做成的,居然是一家做語音晶片的公司。

但只要你懂端側AI 的底層邏輯,就會發現這根本不是意外,而是必然。

做端側AI 的本質,從來都不是堆算力,而是螺螄殼裡做道場:在指甲蓋大的晶片裡,在幾塊錢的成本裡,把每一分錢算力、每一個字節的內存都榨乾。

過去六年,聆思在語音晶片上乾的就是這件事。

它把語音辨識、降噪、TTS 合成全連結塞進了幾塊錢的晶片裡,不用連網,不用外掛內存,就能實現流暢的語音互動。正是這套”極致資源優化” 的功夫,讓它在家電語音市場殺到了第一名。

而這套功夫,放到視覺上,簡直是降維打擊。

和其他廠商”先造晶片再找演算法湊” 的思路完全不同,聆思走了一條反常識的路:演算法定義晶片

別人是先畫好CPU、NPU 的框圖,再讓演算法團隊去適合硬體;聆思是先把視覺演算法拆解到最細的算子粒度,精準算清楚每一個算子需要多少算力、多少記憶體、多少頻寬,再照著這些需求去設計晶片架構。

做人形追踪,它就把NPU 裡負責特徵提取、目標檢測、軌跡預測的算子做到極致,把沒用的通用浮點運算單元全砍掉;做OCR 識別,它就專門集成了一個圖像預處理加速器,讓文字識別速度直接翻3 倍;做電機控制,它就專門優化指令集,讓電機轉得像單線一樣順滑。

正是這種從算子層面就和演算法深度綁定的設計,讓聆思的晶片對影像偵測追蹤、圖文OCR 這類端側視覺任務天生就特別友善。

更關鍵的是,聆思有自己的全職演算法團隊,能一邊根據晶片特性打磨演算法,一邊根據實際場景的需求反過來調整晶片設計,真正做到了軟硬體的雙向協同。

這種軟硬深度綁定的模式,帶來了兩個革命性的結果:

第一,算力利用率做了80% 以上

同樣跑30 幀的人形追踪,Linux 晶片需要0.5T 算力,聆思只用0.1T 就夠了。這意味著成本直接降到原來的1/3,耗電量降到原來的1/4;

第二,演算法效果碾壓所有同行

針對RTOS 的記憶體限制,聆思的演算法團隊把模型壓縮到了原來的1/10,精確度損失不到1%。別人做不出來的RTOS 視覺,它不只做出來了,效果還比Linux 方案更好。

有個雲台廠商給我算了一筆賬,我至今印象深刻:

” 用Linux 方案,BOM 成本120 塊,開發週期6 個月,招3 個演算法工程師改了半年,最後跟隨還是會抖;用聆思的RTOS 方案,BOM 成本45 塊,開發週期1 個月,他們把演算法都調好了,我們只要套個殼就能賣。這根本不是競爭,是降維打擊。

一夜之間,整個產業都切換到了聆思的方案。

幾十塊的AI 雲台鋪滿了淘寶京東,幾百塊的掃描筆成了學生黨標配,AI 跟著風扇成了今年夏天的爆款。

曾經高高在上的AI 視覺,就這樣變成了一般人都能消費得起的日常功能。

但聆思沒有停下腳步。

從單模態到多模態,它已經準備了下一張牌

就在上個月(2026 年5 月10 日),聆思又丟了一顆重磅炸彈:第三代多模態AI SoC 晶片VenusA 正式發表。

別看它還是指甲蓋大小的一塊,裡面塞了雙核心RISC-V CPU 和專為多模態設計的NPU,主頻拉到了400MHz,NPU 峰值算力256 GOPS,實打實的多模態AI 性能直接比上一代翻了3 倍。

最狠的還是它的視覺跟隨能力,直接來了個質的飛躍:

以前最多跟7 米,現在直接幹到15 米,覆蓋了從室內直播到戶外露營的所有場景;手勢識別距離拉到5.5 米,比個OK 一秒就能響應;不管是單人還是多人同框,全程穩定30 幀不掉,就算你突然跑起來、或者周圍人來人往,鏡頭也不會跟丟、不會卡頓。

而這,還只是聆思多模態佈局的冰山一角。

其實早在今年3 月的AWE 家電展上,聆思就已經亮出了自己的下一張牌:專門為大模型家電做的ARCS 系列晶片,還有HomeClaw 全屋智慧算力中心方案。

和市面上東拼西湊的方案不一樣,ARCS 把AI 算力、主控、多媒體、無線連接全塞進了一顆晶片裡,一顆就能搞定“語音聽懂→視覺看懂→呼叫雲端大模型”的完整流程

現在你能買到的很多智慧浴霸、AI 陪伴機器人、智慧鬧鐘、字典筆,裡面用的都是這套已經跑過的成熟方案。

最近我拆解了好幾款今年的爆款硬件,發現了一個很有趣的趨勢:越來越多看起來和視覺無關的產品,開始偷偷裝上聆思的晶片。

例如和EMEET 壹秘合作的PIXY 4K 超清雙眼AI 智慧雲台攝像頭,絕對是今年辦公室硬體賽道殺出來的最大黑馬。

它不僅能輸出4K、30fps 的超高清視訊通話,搭載了通過Zoom 認證的AI 降噪演算法,能完美過濾鍵盤敲擊、開門關門這些辦公室常見噪音;

更厲害的是它的AI 自動接拍功能—— 不管你在會議室裡走來走去講PPT,還是站在白板前寫板書,鏡頭都會穩穩鎖定你,永遠把你放在畫面C 位。遠距會議再也不用幾個人擠在一個鏡頭前,也不用手忙腳亂地調角度了。

這款產品能賣爆的核心,就是它同時整合了聆思的語音和視覺雙能力。

一顆CSK6 晶片,同時搞定AI 降噪和智慧跟拍,不用再像以前那樣分別用兩顆晶片來處理音視頻,不僅BOM 成本直接砍了一半,還解決了多晶片之間的協同延遲問題,讓整個設備的反應速度和穩定性都上了一個台階。

再例如如今熱度居高不下的AI 陪伴機器人與互動玩具,正是多模態融合的典型代表。

它們既能流暢響應各類語音指令、依託大模型實現自然對話,還能依靠視覺能力精準跟隨移動、辨識動作表情。不管是日常聊天互動、趣味問答,還是感知情緒、陪伴玩樂,一台裝置就能兼顧多重體驗。

原本只是簡單發聲、被動執行指令的玩具與機器人,如今蛻變成了能看、能聽、能互動的智慧夥伴。這就是多模態融合帶來的全新產品體驗。

這些案例正在證明一個道理:AI 硬體的下一個增量,不是單一功能的升級,而是多模態能力的融合。

過去的智慧硬件,要嘛只能聽,要嘛只能看,互動方式非常單一。

未來的智慧硬體會同時具備語音、視覺、觸覺等多種感知能力,能夠更自然、更聰明地和使用者交互它不再是被動執行指令的工具,而是主動理解使用者需求的助手。

而聆思,是目前全行業唯一一個,能同時提供成熟語音和視覺方案的晶片公司。

別人需要兩顆晶片、兩個演算法團隊、半年開發週期才能實現的功能,它用一顆晶片、一套方案、一個月就能搞定。這就是無可比擬的競爭優勢。

現在,已經有越來越多的廠商開始和聆思合作,探索多模態的可能性:

  • 早期教育機器人,既能聽懂孩子的問題,又能看懂孩子的繪本和表情

  • 智慧檯燈,既能語音控制,又能辨識孩子的坐姿,提醒矯正

  • 智慧廚房,既能語音導航食譜,又能辨識食材,自動調節火候

AI 正在為傳統硬體創造無限的創新空間。

而聆思,正成為這個新時代的底層基礎設施。

所有人都在卷大模型,它走在了最前面

當整個產業都在為手機端側大模型瘋狂的時候,聆思又一次走在了前面。

聆思早已開啟面向智慧終端的端側大模型專用晶片研發,將在今年底推出。

現在所有人都在喊”端側大模型”,但99% 的人都搞錯了方向。

他們以為端側大模型就是在手機上跑ChatGPT,就是堆10T、20T 的算力。

但實際上,端側大模型最大的市場,根本不在手機上,而是在具身智慧機器人、全屋智慧家庭、汽車座艙等為代表的海量終端

AI 眼鏡需要即時理解你看到的場景,提供你即時的資訊輔助;服務機器人需要理解家庭環境,辨識物體和人物,自主完成家務任務。

但它們對晶片的要求也最苛刻:體積要小,功耗要低,成本要便宜,還要能同時處理語音和視覺數據。

而市面上絕大多數現有端側AI 晶片,根本滿足不了這些要求。

這些晶片大多還是圍繞著傳統CNN 等輕量模型設計的,運算、儲存和資料流架構完全沒有針對Transformer 特有的注意力機制、長序列依賴做原生最佳化。

有產業數據顯示,用傳統CNN 加速器跑大模型推理,算力利用率甚至不到1%—— 這也是為什麼很多標稱幾十TOPS 的晶片,實際跑大模型卻卡得像幻燈片。

更要命的是,大模型推理的真正瓶頸從來都不是標稱的TOPS 算力,而是記憶體頻寬、快取效率和資料重用能力—— 這恰恰是傳統端側晶片的最大短板

再加上終端設備在功耗、成本、晶片面積和散熱上的極限約束,雲端那套堆算力的架構根本不可能在端側複製。想要讓大模型真正走進億萬普通設備,必須在有限的物理邊界內,重新建構一套兼顧能效比和成本的全新設計範式

而這,恰恰是聆思最擅長的事。

和其他公司”先造大算力晶片再找活乾” 的思路不同,聆思還是老路子:先搞清楚機器人和眼鏡到底需要什麼,再去設計晶片。

它不是盲目堆TOPS,而是專注在解決大模型推理最頭痛的三個問題:記憶體頻寬、能源效率比和多模態融合。採用面向大模型的原生架構,配合自研的模型壓縮與推理引擎,目標是用低成本、高性價比的方案來實現流暢的7B 大模型推理能力。

如果這個目標能實現,將徹底改變整個產業的格局。

它將讓大模型從手機、電腦這些高階設備,下沉到所有的智慧終端。到那時,我們身邊的每一個設備,都將具備理解和思考的能力。

真正的智慧時代,才會到來。

中國晶片不需要第二個英偉達

很長一段時間裡,我們都陷入了一種病態的執念:好像中國晶片只有做出自己的英偉達,只有追上7nm、5nm 的先進製程,才算成功。

所有人都在追大算力、追高階市場、喊著”幹翻國際巨頭”。

但聆思的故事告訴我們,中國晶片還有另一條路。

一條不需要最先進的光刻機,不需要跟巨人正面硬剛的路。一條深耕場景、軟硬協同、把使用者真正需要的東西做到極致的路。

全球AI 晶片市場,其實是一個三層金字塔:

  • 塔尖是雲端大算力,被英偉達壟斷,後來者幾乎沒有機會;

  • 中層是高階端側,被高通、蘋果把持,競爭異常激烈;

  • 塔基是海量的消費性電子、家電、教育硬體,市場規模是上層的好幾倍,但長期被忽略。

而中國公司,最擅長的就是打塔基市場。

我們有全球最大的製造業基地,有最完整的產業鏈,擁有最龐大的消費市場。我們最懂一般消費者需要什麼,我們能最快回應市場的變化。

聆思沒有去搶雲端的蛋糕,而是紮根在別人看不起的端側小算力市場,用六年時間,把1.5 億顆晶片裝進了全世界的智慧型裝置裡。它沒有喊過一句”幹翻英偉達”,但它實實在在地改變了我們的生活。

很多人到現在還以為,聆思只是一家做語音晶片的公司。

但他們不知道,這家公司已經悄悄完成了從語音到視覺,再到多模態大模型的技術跨越。它正在從一個單一的晶片供應商,變成一個端側AI 的平台級公司

中國不需要第二個英偉達。

中國需要100 家聆思這樣的公司。

它們不追風口,不炒概念,不講故事,只是默默地把科技做到極致,把成本降到最低,把體驗做到最好

當所有人都在盯著雲端的萬億大模型市場的時候,端側的萬億市場已經被悄悄瓜分完了。

而那些悶聲幹大事的公司,終將走到舞台中央。

前沿動態前沿大會前沿人物

「在看」,給前前加雞腿

分享你的喜愛