科普|蘋果M1 MAX為什麼快?


堆料歸堆料,這次蘋果的策略就是大核高IPC,跑低一點的頻率,在相同效能條件下,換取更好的能耗比表現。

自蘋果秋末新品釋出會,已有一段時日,但這次M1 PRO /MAX新晶片的訊息,從沒停歇。他變強了,為什麼強,強在哪兒?我們今天就來聊一聊。


▌CPU,核心沒變,方案改變

雖然各方面引數強的誇張,很誇張,但比較容易忽視CPU部分,以旗艦SoC晶片M1 MAX為例:


其實這代CPU核心設計和以往M1相同:

效能大核上,就是以前的核心做了個映象,翻了個倍,設計上基本是一致的。

效能小核上,每核的L2快取沒變,但核心數量少了一半。

也就是說,只是方案從“4大4小”變成了“8大2小”,要省電還是M1省電,但M1 PRO和M1 MAX的峰值效能確實比M1強了很多。

而M1 PRO和M1 MAX的最大區別,也僅僅是這下半部分GPU,上半部分是一樣的,就像是可以掰成兩半的蘇打餅乾。

也就是說,這次實際的設計目標就是M1 Max,而M1 PRO應該是出於製造成本考慮的“物理閹割版”。

這代M1 PRO /MAX單核峰值頻率3228MHz,2核3132MHz,3~4核3036MHz,和前代大致相同。

小核單核峰值2GHz,二者都不支援超執行緒。

可能由於本身就很先進,這時候只管堆料就行,沒必要重新設計。

▌快取設計,同,又不同

快取上,飄哥在之前《蘋果M1全網最硬核評測》中已經全面介紹過了。

M1是“大核12MB + 小核4MB”的共享L2快取,已經是當時CPU裡最大的快取設計,同期主流X86 PC的二級快取(L2 Cache)都沒他大。

這代M1 PRO /MAX,要說沒區別,也區別。要說有區別,也有區別。

由於映象大法,雖說是8個(Firestorm)效能核心的CPU,但其實是2組4核心叢集,L2快取規模和佈局沒變,2組叢集分別使用各自的12MB L2快取(共24MB),並非共用一個更大的統一24MB L2快取。同時,每組核心頻率、負載也是各管各的。

但區別在於,效能大核心數量翻倍,快取也翻倍,平均每核心快取大小和以前一樣。但(Icestorm)效能小核心雖然數量少了一半,L2快取大小沒變,平均每核心快取翻倍,依然是4MB,也就是每核心從1MB變成2MB。

此外值得注意的是,因為規格翻番,所以SLC Block快取塊也翻番。

這個SLC不是指SLC顆粒,而是System Level Cache系統級快取的縮寫,可以理解為AMD的Infinity Cache。由於是CPU、GPU、NPU共享的,所以位置往往位於三者之間。

M1和和A14一樣都是16MB,而如今每一個SLC Block都是16MB,M1 PRO的2個就是32MB,M1 MAX就是足足64MB。

延伸閱讀  過度收集個人資訊且拒不整改,這個擁有近150萬使用者的APP被下架

▌NPU,本該翻一番,但可能一番沒翻

比較意外的是,根據蘋果官方宣傳裡,這次NPU效能沒變,還是16核(11.8TFLOPS算力)。NPU也就是嵌入式神經網路處理器,特性優化設計的專用核心,效率比通用核心不知道高到哪裡去了。

這次GPU部分雖然也做了上下對稱設計,很多模組都是翻倍的,包括給H264/265硬解的視訊解碼單元,M1 MAX相比M1 PRO也翻倍。但目前官方資料都是16核,但M1 MAX晶片上也多了一個NPU部分,不知道最終效能有什麼變化。

▌512bit記憶體,離譜的快

這次最恐怖的就是記憶體效能。蘋果依舊使用UMA統一記憶體架構,也就是記憶體和視訊記憶體共用,降低延遲和頻寬需求,提升效率。其實在M1之前,A12X就已經用這種方案了。

顆粒就焊在晶片的記憶體控制器邊上,距離越近,延遲越低。上代M1是雙通道LPDDR4X 4266MHz 128bit(2x 64bit),1.5V電壓。

如今直接用上了LPDDR5,由於DDR5單Die雙通道的特性,實際可以理解為每片顆粒內部是2x 64bit = 128bit位寬,因此記憶體位寬為:

M1PRO是2 x 2 x64bit =256bit

M1MAX是4 x 2 x64bit =512bit

也就是說,M1 MAX不是說看著有4片Die就是4通道,實際是等效8通道。按照最大512bit位寬來算,“等效工作頻率 x 位寬/8 = 頻寬”,而他的記憶體頻率為6400MHz(≈6400MT/s),那麼:

6400MT/sx 512bit/8 =409.6 GB/s

豈止是遠超M1的68.25GB/s,這已經是3995WX配8通道DDR4 3200記憶體的兩倍記憶體效能了…接近海力士的HBM2E記憶體(460GB/s)。

另外這代由於記憶體通道變多,參考M1實際平臺記憶體延遲有96ns,這代的延遲可能會更高。

此外記憶體控制器分配快取為48MB,大快取也可以抵消一些延遲帶來的影響。記憶體控制器肯定是更新更強的,佈線也經過全面改動,

由於記憶體共享視訊記憶體,相較於3080、3090這些GDDR6X視訊記憶體動輒一百多ns的延遲,其實還是低的多的。

當然,由於電壓從上代的1.5V降低到了1.1V,記憶體/視訊記憶體功耗會降低不少,這代最大64G統一記憶體/視訊記憶體,省電的同時,顯然也不會爆視訊記憶體。

反觀RTX 3090上那24G的高功耗GDDR6X視訊記憶體,容量相較之下小的多,但約120W的視訊記憶體功耗,甚至都比別人一臺膝上型電腦平臺功耗都高了…(不過GDDR6X的頻寬確實更大)

▌GPU顯示核心

GPU方面,也是肉眼可見的翻倍,M1 PRO的規模比M1大一倍,M1 MAX比M1 PRO又更大一倍。

延伸閱讀  世界首富馬斯克發中文《七步詩》引猜測,已獲247次網友打賞

從8核,提升到16核和32核GPU。同時翻番的還有TMUs紋理單元、ROPs光柵單元。

根據以往評測,M1的GPU稍低於RX560的水準(Metal下相比DX12有額外效能損失),那麼四倍於這個效能,那剛好就稍低於桌面端3060或者2070差不多了,基本符合官方宣傳圖裡那個暗示3080 Max-Q的圖表。

M1MAX的GPU包含256個TMUs、128個ROPs、4096個ALUs也就是流處理器。GPU核心頻率1278MHz,

單精度浮點效能10.4TFLOPS,功耗約70W。對比其他浮點效能接近的顯示卡,M1 MAX確實有著最低的功耗,極其離譜的能耗比。

根據Anandtech的測試,在GFXBench 5.0 Aztec Ruins測試中,這塊GPU實際表現介於6800M和3080低功耗版之間。

但對於Affinity基準測試這類專業應用,M1 MAX GPU(32891分)在部分任務中甚至超越了AMD Radeon Pro W6900X(32580分)這檔專業卡,

在影象處理方面,果然還是有著先天優勢。

▌總結

功耗方面,M1的TDP是25W(峰值34W),其中CPU部分是15W(極限24W,單大核3.8W),GPU8.5W(極限10W)。

這代M1 PRO和M1 MAX的還沒出來,按照以往大小核心負載功率估算,這次由於大核變多小核變少,猜測最大可能去到34W功耗(M1 MAX 效能模式)。

根據官方資訊,GPU部分最高只有60W,效能接近160W的3080移動版。

晶片規模上,M1 MAX封裝了570億個電晶體。這什麼概念?

M1 PRO為337億個,那麼GPU部分則(570-337)x2=466億個電晶體,CPU+I/O部分為570-466=104億個電晶體。

Zen 3旗艦CPU R95950x兩塊die加起來41.5億電晶體,I/O die是20.9億,總共103.9億(和M1 PRO / MAX基本差不多),而NV旗艦獨顯RTX3090是280億電晶體。

也就是說,5950X + 3090也只有400億電晶體,蘋果這570億的規模,這個有史以來蘋果最大的晶片,真的是堆料堆炸了。

但堆料歸堆料,這次蘋果的策略就是大核高IPC,跑低一點的頻率,在相同效能條件下,換取更好的能耗比表現。

真正的難點在於如何做到這麼多Die之間互聯,延遲會不會起飛,按照蘋果的水,在這種看不到的地方往往也很下功夫。

這次只是筆記本這種低功耗移動端,下回萬一用在Mac Pro這種散熱空間足夠,會是什麼規格呢?可能會來個CPU更強的M2。

目前已經有傳聞,代號Jade4C-Die(和2C-Die)的晶片,會用32個效能核心,128個GPU核心,1600GB/s記憶體頻寬,功耗300W內,可能會用在Mac Pro 2022上?

延伸閱讀  麗臺專業顯示卡 1060 6g二手
Scroll to Top