Categories
科技報導

威盛x86 AI處理器架構、性能公佈:媲美Intel 32核心



除了Intel、AMD,寶島台灣的威盛也會造x86處理器的,不知道還有多少人知道?最近,威盛旗下已有24年曆史的處理器研發部門CenTaur開發出了世界上第一個集成AI協處理器的x86處理器,並有了可工作的原型,今年9月份開始芯片測試。

新處理器採用台積電16nm工藝製造,內核面積不超過195平方毫米,內部採用環形總線設計,串聯集成八個x86 CPU核心、16MB共享三級緩存、四通道DDR4-3200內存控制器、PCIe 3.0控制器(44條)、南橋和IO功能,是一顆完整的SoC。

最大亮點是AI協處理器“NCORE”,佔用面積約34.4平方毫米(17.6%),軟件映射為PCI設備,支持DNN深度神經網絡創建與訓練的加速,號稱可提供多達20TB/s的內存帶寬、每秒20萬億次AI操作的性能。

主頻可以工作在2.5GHz,而且竟然支持AVX-512指令集,這可是AMD Zen 2架構都沒有的。

威盛x86 AI處理器架構、性能公佈:媲美Intel 32核心 1

CHA處理器內核圖

威盛x86 AI處理器架構、性能公佈:媲美Intel 32核心 2

CHA處理器模塊簡圖

近日,Centaur公佈了這顆處理器的諸多架構細節,但有趣的是並非自行公佈,而是來自美國加州處理器技術權威機構、 著名芯片雜誌《Microprocessor Report》發行商Linley Group,後者仔細研究了Centaur的處理器架構設計文檔,並採訪了相關設計師,給出了這份報告。

《Microprocessor Report》雜誌主編Linley Gwennap對這顆全新設計的x86處理器不吝溢美之詞:“Centaur高調重返x86市場,帶來了革新的處理器設計,整個八個高性能CPU核心、一個定制深度學習加速器(DLA)。這是業界第一個集成DLA的服務器處理器設計。新的加速器NCore的神經網絡性能甚至比最強大的至強還要好,而且不需要昂貴的外部GPU計算卡輔助。”

Linley Group透露,Centaur的全新x86微架構叫做“CNS”,設計目標是IPC要高於傳統PC處理器,每時鐘週期可解碼4條x86指令,並行執行10個微操,首顆處理器暫命名“CHA”,其中AI協處理器INT8整數的峰值性能高達20TOPS(20萬億次操作每秒)。

威盛x86 AI處理器架構、性能公佈:媲美Intel 32核心 3

CNS微架構圖

威盛x86 AI處理器架構、性能公佈:媲美Intel 32核心 4

NCore AI協處理器架構圖

Linley Group基於權威的MLPerf性能測試來衡量x86處理器的AI性能,結果發現Centaur CHA處理器的AI推理性能,相當於23個世界級的Intel x86核心,而且後者必須是支持512位的VNNI矢量神經網絡指令才行。——事實上,Intel現在還沒有真正的32核心產品。

Centaur AI協處理器的架構設計類似VNNI指令的SIMD(單指令多數據)理念,但是在16MB專用內存、20TB/s帶寬的支持下,每個時鐘週期可以處理32768個數據位,而且將推理處理交給專門的AI協處理器後,x86核心就可以放心執行其他通用任務。

Centaur還為開發者提供了新的算法,可充分利用Centaru AI協處理器無與倫比的超低推理延遲,並與x86 CPU核心密切配合。

在紐約州舉辦的ISC East大會上,Centaur還首次公開展示了CHA處理器,而且除了視頻分析、實時物體檢測和分類等傳統AI應用之外,還唯一秀了一把語義分割(像素級圖像分類)、人體姿態估計(簡筆劃)等前沿應用,讓人大開眼界。

目前,Centaur正在改進優化新平台的硬件性能、軟件效率,而新處理器預計明年下半年正式投產。

Linley Group的詳細報告可以點擊這裡下載

威盛x86 AI處理器架構、性能公佈:媲美Intel 32核心 5

不同CPU架構的對比

威盛x86 AI處理器架構、性能公佈:媲美Intel 32核心 6
Centaur處理器測試中