初創用3000萬做不可編程的AI晶片,推理速度是Nvidia最強GPU 50倍

2026 年2 月21 日,一家名為Taalas 的晶片新創公司正式揭開面紗,發布了它的第一款產品:一顆將Meta 的Llama 3.1 8B 大語言模型幾乎完整「刻進」矽片的推理晶片HC1。依照該公司公佈的數據,這顆晶片在單一用戶場景下可以跑到17,000 tokens/s 的輸出速度,大約是目前市面上最快競品Cerebras 的近9 倍,是Nvidia Blackwell 架構GPU 的近50 倍。建置成本據稱只有同等GPU 方案的二十分之一,功耗低一個數量級。

圖丨TaalasHC1(資料來源:Taalas)

不過這顆晶片的限制也非常明顯,那就是它只能跑Llama 3.1 8B。要換個模型?就只能再造一顆晶片。

這是AI 晶片行業迄今為止最激進的專用化嘗試,沒有之一。

目前主流的推理部署依賴GPU,尤其是Nvidia 的H100/H200 和最新的Blackwell 系列。 GPU 的優點在於通用性和成熟的軟體生態,但它的架構天然存在一個瓶頸:運算單元和儲存單元是分離的。模型的參數儲存在HBM(High Bandwidth Memory,高頻寬記憶體)中,計算核心每次運算都需要從HBM 搬運數據,這個搬運過程消耗大量能量和時間。

為了緩解這個問題,整個產業在先進封裝、3D 堆疊、液冷散熱、高速互聯等方向上投入了龐大的工程資源。 Nvidia 的GB200 NVL72 機櫃級系統就是這種路線的極致體現:72 顆GPU 透過NVLink 互聯,單機櫃功耗接近120 kW,需要液冷支持,造價以百萬美元計。

(資料來源:Taalas)

Taalas 的做法是把這套複雜性連根拔掉。

他們的核心想法可以歸納為三個字:全面專用化、存算合一、極度簡化。 HC1 晶片採用Mask ROM(光罩唯讀記憶體)製程將模型權重直接編碼在晶片的金屬互連層中,和運算邏輯共存於同一塊矽片上,不再需要外部DRAM 或HBM。晶片上保留了一小塊SRAM(Static Random-Access Memory,靜態隨機存取記憶體),用於存放KV Cache(鍵值緩存,Transformer 推理時緩存歷史注意力資訊的資料結構)和LoRA(Low-Rank Adaptation,低秩適配)微調權重,提供有限的靈活性,但整體架構的靈活性幾乎為零。

據報道,HC1 是基於台積電N6 製程製造,晶片面積815 mm²,接近光罩極限(reticle limit),單顆晶片即可容納完整的8B 參數模型。功耗約250W,10 塊HC1 闆卡裝進一台伺服器總功耗約2.5 kW,可在標準風冷機架中運作。這和動輒數十千瓦、必須上液冷的GPU 伺服器差異很大。

Taalas 的CEO Ljubisa Bajic 是Tenstorrent 的共同創辦人,曾擔任該公司的CEO 和CTO。 Tenstorrent 是AI 晶片領域另一家知名新創公司,走的是基於RISC-V 架構的可編程AI 加速器路線,後來由晶片行業傳奇人物Jim Keller 接任CEO 並繼續發展。 Bajic 離開Tenstorrent 後大約在2023 年中創立了Taalas,走了一條和Tenstorrent 幾乎完全相反的路:不追求通用性,而是把專用化推到極端。目前,Taalas 團隊規模約25 人,累計融資超過2 億美元,但根據Bajic 本人披露,第一款產品實際上只花費了約3,000 萬美元。

圖丨LjubisaBajic(來源:Tenstorrent)

Taalas 的晶片客製化流程借鑒了2000 年代早期結構化ASIC(Application-Specific Integrated Circuit,專用積體電路)的想法。結構化ASIC 透過固化閘陣列和硬化IP 模組,只修改互連層來適應不同工作負載,在成本和效能上介於FPGA(Field-Programmable Gate Array,現場可程式閘陣列)和全客製化ASIC 之間。

Taalas 的做法類似但更進一步:每次為新模型定制晶片時只需更換兩層掩模,這兩層掩模同時決定模型權重的編碼和數據在晶片內部的流動路徑。 Bajic 表示,從拿到新模型到生成RTL(Register Transfer Level,暫存器傳輸級描述)大約只需要一週的工程工作量,整個從模型到晶片的週期目標是兩個月。

這個兩個月的周轉速度如果能穩定實現,又代表什麼?意味著當一個模型在生產環境中被驗證有效、用戶粘性足夠高、預計至少運行一年時,Taalas 可以在較短時間內為它製造專用矽片,以遠低於GPU 的成本和功耗來提供推理服務。 Bajic 承認,這種模式要求客戶對某個特定模型做出至少一年的承諾,「肯定有很多人不願意,但會有人願意」。

那麼,這種極端專用化能擴展到更大的模型嗎? Taalas 給了他們DeepSeek R1 671B 的模擬數據。 671B 參數的模型需要大約30 顆晶片協同工作,每顆晶片承載約20B 參數(採用MXFP4 格式,並將SRAM 分離到獨立晶片以提高密度)。 30 顆晶片意味著30 次增量流片,但Bajic 指出由於每次只改兩層遮罩,增量流片成本並不高。

模擬結果顯示,這套30 晶片系統在DeepSeek R1 上可以達到約12,000 tokens/s/user,而目前GPU 最優水準大約在200 tokens/s/user。推理成本約7.6 美分/百萬token,不到GPU 吞吐優化方案的一半。

這些數字當然還停留在類比階段。實際多晶片系統面臨的互聯、同步、良率等工程挑戰不可小覷,30 顆大面積晶片協同工作的驗證複雜度也是指數級增長的。 Bajic 自己也提到,因為晶片完全不可編程,“出錯的餘地基本為零”,唯一能建立信心的方法就是在流片前對整個模型進行完整的仿真——如何在合理時間內完成30 顆晶片的聯合仿真,本身就是一個巨大的工程問題。 Taalas 聲稱已經建立了可以在大規模計算叢集上運行的模擬流程來應對。

還有一個值得關注的細節是,HC1 使用了自訂的3-bit 基礎資料類型進行激進量化,結合3-bit 和6-bit 參數,會帶來相對於標準量化模型的品質損失。 Taalas 對此並未迴避,承認模型在品質基準測試中會有退化。他們的第二代矽平台HC2 將採用標準4-bit 浮點格式以改善這個問題。第二款產品預計將是中等規模的推理模型,計劃今年春季在實驗室完成,隨後接觸推理服務。基於HC2 平台的前沿大模型則規劃冬季部署。

當前AI 推理晶片市場大致可以按專用化程度排列成一個光譜:一端是Nvidia GPU 這樣的高度通用方案;中間是Groq、Cerebras、SambaNova 等,它們設計了針對LLM 推理優化的客製化架構,但仍保留可編程性,能運行多種模型;Etched 更往前一步,彈性直接站在了最末端,把一個特定模型焊死在矽片裡。

(資料來源:Gemini生成)

這種極端策略的風險很明顯。 AI 領域模型迭代速度極快,去年的前沿模型今年可能就被淘汰。如果一顆晶片只能跑一個模型,而那個模型在晶片壽命結束前就過時了,投資就打了水漂。這也是Bajic 所說的「為什麼之前沒人敢走到這個角落」。但他認為隨著產業成熟,總有一些模型在實際業務中被長期使用。 Taalas 產品副總裁Paresh Kharya(先前曾在Nvidia 長期任職)也對EE Times 表示,對於在重要業務場景中運行的模型,用戶黏性可能持續一年甚至更久。

商業模式上Taalas 還在摸索。 Kharya 透露了幾個可能方向:自建基礎設施運行開源模型並提供API 推理服務;直接向客戶出售晶片;或與模型開發者合作,為他們的模型定制專用晶片供其自有推理基礎設施使用。哪種模式最終能跑通,取決於市場對此極端專用化方案的接受度。

不過從純粹技術角度來說,Taalas 的方案確實觸及了一個被主流路線忽略的設計空間。存算分離帶來的頻寬牆(memory wall)是當前推理硬體的核心瓶頸,而Taalas 透過將權重以Mask ROM 形式與計算邏輯同層集成,從根本上消除了這個瓶頸。代價是靈活性的徹底喪失,但如果應用場景允許這種剛性,換來的效能和成本優勢是實打實的。

Bajic 也透露,Taalas 能用單一電晶體同時儲存4-bit 模型參數並完成乘法運算。他拒絕透露更多,但確認計算仍然是全數字的。如果屬實,這意味著Taalas 在電路層面實現了一種極為高效的存內計算(Compute-in-Memory)機制,雖然不同於學術界討論較多的模擬存內計算方案,但目標一致:讓數據就地參與運算,不再搬來搬去。

硬接線晶片也帶來了一個意想不到的副產品:軟體堆疊的極度簡化。 Bajic 說“軟體作為一個東西基本上消失了”,公司只有一個工程師負責軟體棧,而且這人還兼顧其他工作。比較目前GPU 推理系統中vLLM、TensorRT-LLM、PagedAttention 等複雜軟體最佳化層的工程投入,這種簡化幾乎是降維式的。當然,這種簡化是以極端硬體專用化為前提的,不具有一般性。

Bajic 在部落格中以ENIAC 到電晶體的演化做類比,暗示目前以GPU 資料中心為核心的AI 基礎設施可能只是早期的“笨重原型”,未來終將被更高效的方案取代。這個類比有一定道理,但也不宜過度引申。 GPU 資料中心的「暴力」不僅僅是硬體層面的,它背後是整個CUDA 軟體生態、成熟的開發工具鍊和龐大的工程師社群。顛覆硬體容易,顛覆生態難。 Taalas 的晶片或許在特定場景下擁有壓倒性的性能和成本優勢,但要成為主流路線的替代方案,需要的遠不止一顆跑得快的晶片。

不過,Taalas 可能也從未打算成為「替代方案」。 Kharya 表示:“模型最優矽片不會取代滿是GPU 的大型資料中心,但它將適合某些應用。”

參考資料:

1.https://taalas.com/the-path-to-ubiquitous-ai/

2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/

分享你的喜愛