紅海之上的新藍海：沒人注意到，聆思已經拿下了半個消費級AI 視覺| 前沿在線

編輯：前沿線上編輯部

2026 年的視覺產業，正在上演最撕裂的一幕。

一邊是傳統市場的屍橫遍野：

影像賽道，手機相機捲到2 億像素也賣不動，相機廠商在全畫幅的參數競賽裡互相殘殺；安防賽道，海康大華雙寡頭壟斷了全球70% 的市場，中小廠商只能靠價格戰苟活。

這個年規模數百億美元的成熟市場，早就被瓜分完畢，連一絲縫隙都沒留給新玩家。

所有人都在說：視覺市場太捲了，沒機會了。

但很少人注意到，在這片紅海之上，一個全新的萬億級增量市場正以30% 的年增速瘋狂爆發。

它不拼像素，不拼畫質，甚至不要求看得多清楚。

它拼的是影像和場景結合之後，能創造什麼樣的應用價值；而這些價值，正悄無聲息地滲透進你生活的每一個角落，把很多曾經只存在於科幻片裡的功能，變成了所有人習以為常的日常。

在內容創作賽道，自動跟拍早就不是專業攝影師的專屬技能。

從幾十塊錢的桌上雲台到幾千塊的手持穩定器，

再到能翻山越嶺的消費級無人機，辨識人臉自動跟拍、智慧構圖已經成了業界標配。

現在就算是剛入門的新手博主，不用麻煩別人舉相機，不用手動調角度，一個人就能拍出絲滑流暢的vlog 和直播畫面。

在教育場景，離線OCR 辨識讓掃描筆成了中小學生的必備文具。

不用連網，不用等雲端加載，掃一下單字就能出發音、釋義和例句，甚至連整段文字的翻譯都能一秒完成。

除此之外，能辨識坐姿的學習桌、能批改作業的智慧檯燈，也都靠著視覺能力，重新定義了教育硬體的型態。

在智慧家庭裡，視覺正在成為語音之外更自然的互動方式。

門鎖不用掏鑰匙，掃臉就能開門；

風扇不用手動搖頭，能精準辨識人體位置跟著吹；

電視不用找遙控器，手勢就能快轉暫停；甚至連空調都能依照房間裡的人數和位置，自動調整風向和溫度。

就連曾經最傳統的玩具賽道，視覺也成了不可或缺的核心能力。

能跟著孩子跑的AI 陪伴機器人、

能辨識手勢的互動積木、能自動追蹤足球的玩具車…

這些曾經只能靠遙控器操作的玩具，現在都能”看見” 世界，和孩子產生真正的互動。

這就是消費級AI 視覺。

它不是傳統視覺的升級，而是一場徹頭徹尾的革命。

它把視覺從一個”記錄工具”，變成了一個”互動入口”，重新定義了幾乎所有智慧硬體的形態。

而在這個所有人都沒看懂的新市場裡，唱主角的不是高通，不是英偉達，不是海康大華，而是一家你可能連名字都沒聽過的公司——聆思科技。

提到聆思，99% 的人的第一個反應都是：“哦，那個要做語音晶片的。”

這沒錯。

你家裡的美的、海爾、海信冷氣，喊一聲就能開關調溫的那種，十台有九台用的都是它的CSK 系列晶片。在家電語音這個賽道，聆思早就做到了絕對統治，截至2026 年3 月，五大系列AI 晶片累計出貨已突破1.5 億顆。

這家成立於2020 年的公司，是安徽省及合肥市國資平台在端側AI 領域的重點投資佈局企業，還有元禾璞華、澐柏、天際、盈科、訊飛創投等一線資本加持。

但幾乎沒人知道，這家靠語音起家的公司，已經悄悄把戰火燒到了AI 視覺。

過去三年，它累計賣出了超過3000 萬套視覺方案，涵蓋了從雲台、掃描筆到智慧門鎖、會議攝影機的幾乎所有消費級視覺場景。

在桌上跟拍雲台這個品類，它的市佔率已超過80%；在掃描筆市場，它的方案更是成了業界事實標準。

當整個AI 晶片產業都在卷大算力、卷先進製程、喊著”幹翻英偉達” 的時候，聆思走了一條完全相反的路：不做Linux，不堆TOPS，不炒概念，用一套全球首個大規模商用的RTOS 軟硬協同方案，硬生生在巨頭環伺的市場裡，撕開了一道萬億級的口子。

今天我們就聊聊這個藏在你生活裡的隱形冠軍，以及它戳破的整個AI 晶片產業最大的謊言。

今年很多AI 硬體老闆，都在罵Linux 晶片

2026 年開年，我認識的所有做AI 硬體的創辦人，沒有一個不罵Linux 晶片的人。

不是情緒發洩，是真的活不下去了。

2026 年開年以來，所有主流Linux AI 晶片全線漲價，核心原因是全球AI 需求爆發導致記憶體產能嚴重不足。

TrendForce 數據顯示，2026 年第一季常規DRAM 合約價格季比上漲93-98%，NAND 合約價也漲了85%~90%，預期2026 年第二季DRAM 合約價將上漲58%~63%、NAND 合約價漲幅更預估高達70%~75%。

DDR5 記憶體價格在半年內也暴漲約300%，连曾经以性价比著称的 Raspberry Pi 5 价格也上涨了 150%。

對於依賴外掛大容量記憶體的Linux AI 晶片來說，這意味著BOM 成本直接上漲2-3 倍。

過去五年，整個產業默認了一個不容置疑的”標準答案”：做AI 視覺，必須用Linux 晶片。

理由聽起來天經地義：Linux 生態完善，GitHub 隨便搜就能找到開源演算法，開發者拿來就能用，根本不用考慮記憶體限制、資源分配這些破事。只要堆夠0.5T 以上的算力，什麼人形追蹤、OCR 辨識、手勢控制，通通都能跑。

但這個”標準答案”，從一開始就是裹著糖衣的毒藥。

為了跑Linux 系統和臃腫的開源演算法，晶片必須外掛大容量DDR 記憶體和eMMC 存儲，外圍電路複雜得像蜘蛛網。

算下來，單是晶片+ BOM 成本就要幾百塊，最後反映到終端產品上，就是售價居高不下：

三年前，有AI 跟拍的雲台普遍賣3000 塊以上
一支能離線翻譯的掃描筆，要價1000 元起步
稍微帶點人臉辨識的門鎖，沒有500 塊拿不下來

更離譜的是算力浪費。

為了涵蓋所有可能的場景，Linux 晶片設計了大量通用模組。

但在具體的視覺任務裡，80% 的算力都是空轉的。標稱1T 的晶片，真正能用在人形追蹤上的，可能連0.2T 都不到。剩下的算力，除了費電和漲價，沒有任何用處。

“就像你買了一輛12 缸的勞斯萊斯，天天在小區裡買菜開，油耗高得嚇人，速度還不如電動車。”

深圳一家硬體廠商的CTO 跟我吐槽，”但沒辦法，業界只有這個方案能用。”

今年的漲價，成了壓垮駱駝的最後一根稻草。

很多中小廠商算了一筆帳：原來BOM 成本50 塊的產品，現在漲到150 塊，終端售價要翻一倍才能保本，根本賣不動。不少已經立項半年的項目直接砍了，還有的廠商乾脆清庫存轉行。

那有沒有更便宜的替代方案？

有，即時作業系統。

RTOS 是一種輕量級即時作業系統，體積只有幾百KB，不用外掛內存，BOM 成本只有Linux 方案的1/3，功耗只有後者的一半。理論上，它才是消費級AI 視覺的最佳選擇。

但在很長一段時間裡，整個產業都沒能拿出一個能用的RTOS 視覺方案。

不是沒人試過，是做出來的都是垃圾：馬達轉起來一頓一頓的，手勢比半天沒反應，人稍微走快點就跟丟，稍微擋一下就直接原地罷工。

問題出在哪？

RTOS 的記憶體只有Linux 的零頭，開源演算法直接丟進去，根本跑不起來。必須把演算法拆到原子級，一點點裁剪、最佳化、重寫，才能在有限的資源中流暢運作。

這是一個極其苦、極其累、極其考驗技術功底的活，而且沒有任何捷徑可走。

但整個產業鏈，沒有人願意做這個活：

晶片大廠不會乾：他們只賣晶片，養幾百個演算法團隊不划算
演算法公司不會乾：他們不懂晶片底層，再怎麼優化也達不到要求
終端廠商更不會幹：他們連自己的演算法團隊都沒有，全靠第三方外包

更坑的是第三方算法公司。

他們給A 廠商做的演算法，放到B 廠商的晶片上就跑不動；換個攝影機型號，又要重新適應。最後錢沒少花，時間沒少耗，做出來的產品還是一堆問題。

整個產業就卡在這裡了：貴的用不起，便宜的不好用。

所有人都在等一個破局者。

沒人想到，最後破局的是一家做語音的公司

2023 年，當整個產業還在Linux 的泥潭裡掙扎的時候，聆思悄悄丟出了第一代RTOS 視覺方案。

整個產業都炸了。

沒人想到，最後把這事做成的，居然是一家做語音晶片的公司。

但只要你懂端側AI 的底層邏輯，就會發現這根本不是意外，而是必然。

做端側AI 的本質，從來都不是堆算力，而是螺螄殼裡做道場：在指甲蓋大的晶片裡，在幾塊錢的成本裡，把每一分錢算力、每一個字節的內存都榨乾。

過去六年，聆思在語音晶片上乾的就是這件事。

它把語音辨識、降噪、TTS 合成全連結塞進了幾塊錢的晶片裡，不用連網，不用外掛內存，就能實現流暢的語音互動。正是這套”極致資源優化” 的功夫，讓它在家電語音市場殺到了第一名。

而這套功夫，放到視覺上，簡直是降維打擊。

和其他廠商”先造晶片再找演算法湊” 的思路完全不同，聆思走了一條反常識的路：演算法定義晶片。

別人是先畫好CPU、NPU 的框圖，再讓演算法團隊去適合硬體；聆思是先把視覺演算法拆解到最細的算子粒度，精準算清楚每一個算子需要多少算力、多少記憶體、多少頻寬，再照著這些需求去設計晶片架構。

做人形追踪，它就把NPU 裡負責特徵提取、目標檢測、軌跡預測的算子做到極致，把沒用的通用浮點運算單元全砍掉；做OCR 識別，它就專門集成了一個圖像預處理加速器，讓文字識別速度直接翻3 倍；做電機控制，它就專門優化指令集，讓電機轉得像單線一樣順滑。

正是這種從算子層面就和演算法深度綁定的設計，讓聆思的晶片對影像偵測追蹤、圖文OCR 這類端側視覺任務天生就特別友善。

更關鍵的是，聆思有自己的全職演算法團隊，能一邊根據晶片特性打磨演算法，一邊根據實際場景的需求反過來調整晶片設計，真正做到了軟硬體的雙向協同。

這種軟硬深度綁定的模式，帶來了兩個革命性的結果：

第一，算力利用率做了80% 以上。

同樣跑30 幀的人形追踪，Linux 晶片需要0.5T 算力，聆思只用0.1T 就夠了。這意味著成本直接降到原來的1/3，耗電量降到原來的1/4；

第二，演算法效果碾壓所有同行。

針對RTOS 的記憶體限制，聆思的演算法團隊把模型壓縮到了原來的1/10，精確度損失不到1%。別人做不出來的RTOS 視覺，它不只做出來了，效果還比Linux 方案更好。

有個雲台廠商給我算了一筆賬，我至今印象深刻：

” 用Linux 方案，BOM 成本120 塊，開發週期6 個月，招3 個演算法工程師改了半年，最後跟隨還是會抖；用聆思的RTOS 方案，BOM 成本45 塊，開發週期1 個月，他們把演算法都調好了，我們只要套個殼就能賣。這根本不是競爭，是降維打擊。」

一夜之間，整個產業都切換到了聆思的方案。

幾十塊的AI 雲台鋪滿了淘寶京東，幾百塊的掃描筆成了學生黨標配，AI 跟著風扇成了今年夏天的爆款。

曾經高高在上的AI 視覺，就這樣變成了一般人都能消費得起的日常功能。

但聆思沒有停下腳步。

從單模態到多模態，它已經準備了下一張牌

就在上個月（2026 年5 月10 日），聆思又丟了一顆重磅炸彈：第三代多模態AI SoC 晶片VenusA 正式發表。

別看它還是指甲蓋大小的一塊，裡面塞了雙核心RISC-V CPU 和專為多模態設計的NPU，主頻拉到了400MHz，NPU 峰值算力256 GOPS，實打實的多模態AI 性能直接比上一代翻了3 倍。

最狠的還是它的視覺跟隨能力，直接來了個質的飛躍：

以前最多跟7 米，現在直接幹到15 米，覆蓋了從室內直播到戶外露營的所有場景；手勢識別距離拉到5.5 米，比個OK 一秒就能響應；不管是單人還是多人同框，全程穩定30 幀不掉，就算你突然跑起來、或者周圍人來人往，鏡頭也不會跟丟、不會卡頓。

而這，還只是聆思多模態佈局的冰山一角。

其實早在今年3 月的AWE 家電展上，聆思就已經亮出了自己的下一張牌：專門為大模型家電做的ARCS 系列晶片，還有HomeClaw 全屋智慧算力中心方案。

和市面上東拼西湊的方案不一樣，ARCS 把AI 算力、主控、多媒體、無線連接全塞進了一顆晶片裡，一顆就能搞定“語音聽懂→視覺看懂→呼叫雲端大模型”的完整流程。

現在你能買到的很多智慧浴霸、AI 陪伴機器人、智慧鬧鐘、字典筆，裡面用的都是這套已經跑過的成熟方案。

最近我拆解了好幾款今年的爆款硬件，發現了一個很有趣的趨勢：越來越多看起來和視覺無關的產品，開始偷偷裝上聆思的晶片。

例如和EMEET 壹秘合作的PIXY 4K 超清雙眼AI 智慧雲台攝像頭，絕對是今年辦公室硬體賽道殺出來的最大黑馬。

它不僅能輸出4K、30fps 的超高清視訊通話，搭載了通過Zoom 認證的AI 降噪演算法，能完美過濾鍵盤敲擊、開門關門這些辦公室常見噪音；

更厲害的是它的AI 自動接拍功能—— 不管你在會議室裡走來走去講PPT，還是站在白板前寫板書，鏡頭都會穩穩鎖定你，永遠把你放在畫面C 位。遠距會議再也不用幾個人擠在一個鏡頭前，也不用手忙腳亂地調角度了。

這款產品能賣爆的核心，就是它同時整合了聆思的語音和視覺雙能力。

一顆CSK6 晶片，同時搞定AI 降噪和智慧跟拍，不用再像以前那樣分別用兩顆晶片來處理音視頻，不僅BOM 成本直接砍了一半，還解決了多晶片之間的協同延遲問題，讓整個設備的反應速度和穩定性都上了一個台階。

再例如如今熱度居高不下的AI 陪伴機器人與互動玩具，正是多模態融合的典型代表。

它們既能流暢響應各類語音指令、依託大模型實現自然對話，還能依靠視覺能力精準跟隨移動、辨識動作表情。不管是日常聊天互動、趣味問答，還是感知情緒、陪伴玩樂，一台裝置就能兼顧多重體驗。

原本只是簡單發聲、被動執行指令的玩具與機器人，如今蛻變成了能看、能聽、能互動的智慧夥伴。這就是多模態融合帶來的全新產品體驗。

這些案例正在證明一個道理：AI 硬體的下一個增量，不是單一功能的升級，而是多模態能力的融合。

過去的智慧硬件，要嘛只能聽，要嘛只能看，互動方式非常單一。

未來的智慧硬體，會同時具備語音、視覺、觸覺等多種感知能力，能夠更自然、更聰明地和使用者交互。它不再是被動執行指令的工具，而是主動理解使用者需求的助手。

而聆思，是目前全行業唯一一個，能同時提供成熟語音和視覺方案的晶片公司。

別人需要兩顆晶片、兩個演算法團隊、半年開發週期才能實現的功能，它用一顆晶片、一套方案、一個月就能搞定。這就是無可比擬的競爭優勢。

現在，已經有越來越多的廠商開始和聆思合作，探索多模態的可能性：

早期教育機器人，既能聽懂孩子的問題，又能看懂孩子的繪本和表情
智慧檯燈，既能語音控制，又能辨識孩子的坐姿，提醒矯正
智慧廚房，既能語音導航食譜，又能辨識食材，自動調節火候

AI 正在為傳統硬體創造無限的創新空間。

而聆思，正成為這個新時代的底層基礎設施。

所有人都在卷大模型，它走在了最前面

當整個產業都在為手機端側大模型瘋狂的時候，聆思又一次走在了前面。

聆思早已開啟面向智慧終端的端側大模型專用晶片研發，將在今年底推出。

現在所有人都在喊”端側大模型”，但99% 的人都搞錯了方向。

他們以為端側大模型就是在手機上跑ChatGPT，就是堆10T、20T 的算力。

但實際上，端側大模型最大的市場，根本不在手機上，而是在具身智慧機器人、全屋智慧家庭、汽車座艙等為代表的海量終端。

AI 眼鏡需要即時理解你看到的場景，提供你即時的資訊輔助；服務機器人需要理解家庭環境，辨識物體和人物，自主完成家務任務。

但它們對晶片的要求也最苛刻：體積要小，功耗要低，成本要便宜，還要能同時處理語音和視覺數據。

而市面上絕大多數現有端側AI 晶片，根本滿足不了這些要求。

這些晶片大多還是圍繞著傳統CNN 等輕量模型設計的，運算、儲存和資料流架構完全沒有針對Transformer 特有的注意力機制、長序列依賴做原生最佳化。

有產業數據顯示，用傳統CNN 加速器跑大模型推理，算力利用率甚至不到1%—— 這也是為什麼很多標稱幾十TOPS 的晶片，實際跑大模型卻卡得像幻燈片。

更要命的是，大模型推理的真正瓶頸從來都不是標稱的TOPS 算力，而是記憶體頻寬、快取效率和資料重用能力—— 這恰恰是傳統端側晶片的最大短板。

再加上終端設備在功耗、成本、晶片面積和散熱上的極限約束，雲端那套堆算力的架構根本不可能在端側複製。想要讓大模型真正走進億萬普通設備，必須在有限的物理邊界內，重新建構一套兼顧能效比和成本的全新設計範式。

而這，恰恰是聆思最擅長的事。

和其他公司”先造大算力晶片再找活乾” 的思路不同，聆思還是老路子：先搞清楚機器人和眼鏡到底需要什麼，再去設計晶片。

它不是盲目堆TOPS，而是專注在解決大模型推理最頭痛的三個問題：記憶體頻寬、能源效率比和多模態融合。採用面向大模型的原生架構，配合自研的模型壓縮與推理引擎，目標是用低成本、高性價比的方案來實現流暢的7B 大模型推理能力。

如果這個目標能實現，將徹底改變整個產業的格局。

它將讓大模型從手機、電腦這些高階設備，下沉到所有的智慧終端。到那時，我們身邊的每一個設備，都將具備理解和思考的能力。

真正的智慧時代，才會到來。

中國晶片不需要第二個英偉達

很長一段時間裡，我們都陷入了一種病態的執念：好像中國晶片只有做出自己的英偉達，只有追上7nm、5nm 的先進製程，才算成功。

所有人都在追大算力、追高階市場、喊著”幹翻國際巨頭”。

但聆思的故事告訴我們，中國晶片還有另一條路。

一條不需要最先進的光刻機，不需要跟巨人正面硬剛的路。一條深耕場景、軟硬協同、把使用者真正需要的東西做到極致的路。

全球AI 晶片市場，其實是一個三層金字塔：

塔尖是雲端大算力，被英偉達壟斷，後來者幾乎沒有機會；
中層是高階端側，被高通、蘋果把持，競爭異常激烈；
塔基是海量的消費性電子、家電、教育硬體，市場規模是上層的好幾倍，但長期被忽略。

而中國公司，最擅長的就是打塔基市場。

我們有全球最大的製造業基地，有最完整的產業鏈，擁有最龐大的消費市場。我們最懂一般消費者需要什麼，我們能最快回應市場的變化。

聆思沒有去搶雲端的蛋糕，而是紮根在別人看不起的端側小算力市場，用六年時間，把1.5 億顆晶片裝進了全世界的智慧型裝置裡。它沒有喊過一句”幹翻英偉達”，但它實實在在地改變了我們的生活。

很多人到現在還以為，聆思只是一家做語音晶片的公司。

但他們不知道，這家公司已經悄悄完成了從語音到視覺，再到多模態大模型的技術跨越。它正在從一個單一的晶片供應商，變成一個端側AI 的平台級公司。

中國不需要第二個英偉達。

中國需要100 家聆思這樣的公司。

它們不追風口，不炒概念，不講故事，只是默默地把科技做到極致，把成本降到最低，把體驗做到最好。

當所有人都在盯著雲端的萬億大模型市場的時候，端側的萬億市場已經被悄悄瓜分完了。

而那些悶聲幹大事的公司，終將走到舞台中央。

前沿動態前沿大會前沿人物

點「在看」，給前前加雞腿

紅海之上的新藍海：沒人注意到，聆思已經拿下了半個消費級AI 視覺| 前沿在線

相關貼文：

相關文章:

相關貼文：

相關文章:

相關文章

昨晚跑滴滴拉了兩個女孩，上車後滿車都是臭味，我轉頭一看傻眼了

高德和交警聯網了嗎？網友：高德敢連網，就會失去大量客戶

俄開出極簡停戰條件，不到24小時，澤倫斯基立刻表示願與普丁談