小米發了個 310B：性能不一定最強，但路線很現實

今天我有一個考試，考試前的半個小時刷twitter，看到了小米發布的模型，但是沒顧得上仔細看，晚上再看的時候。

覺得這貌似是前deepseek的核心參與者fuli luo，到新公司小米之後正式發布的第一條twitter，所以從含金量上來說肯定是拉滿了。

當然事實上也的確是，從小米的huggingface上可以看到，mimo-v2-flash是一個單獨的系列，相比起其他系列，這個系列最大的特點就是大，足足有310b，而其他的都只有8b。

很明顯的，8b的模型唯一的優勢就是速度快，但是要談到能用的程序，還遠遠不夠。

而310b這個量級，基本上可以說是夠用了。

為什麼說是夠用呢，因為小米這種公司本身就不是搞ai的，所以把ai刷到世界第一既不可能，也沒有太大的必要。

最重要的是夠用和好用，最好是能跟小米的整個硬件生態關聯上。

有些人可能會提到這不就是刷benchmark嗎？這話怎麼說的。沒有新出的大模型不刷benchmark的，因為如果沒有在benchmark上達到sota，那就根本沒有發布的意義。

其實刷benchmark也是有策略的，大多數情況就是小米這樣，拿通用的benchmark跑一遍，跑到大多數達到sota即可。

而有些公司，比如openai，他們是發現普通的benchmark都被刷爛了，再刷也很難體現他們的斷崖式領先了，所以他們會有動力搞新的benchmark，這就是所謂的規則制定者。

所以，刷榜正常也非常的必要。

至於真實的使用性能，我覺得對於小米的模型來說，能夠實現deepseek級別的理解能力，其餘的都應該放到efficient上。

而實際上小米的整個模型也是這麼乾的。

小米模型的技術策略

第一，架構設計

5層sliding window attenion（swa）+1層global attention（ga），然後重複8次，可以大多數的層都很省，只有1/9的層在做大批量運算。

但swa的窗口很小，所以出現attention sink，看起來mimo專門在這個地方打了補丁。

第二，lightweight multi-token prediction（mtp）：輕量多 token 預測

傳統的大模型一個token一個token的吐，慢和貴，一次性吐好幾個肯定快，但是穩定性就很難說了。

它這裡提到的speculative decoding（投機解碼），就是用一個小模型先“草擬一串 token”，大模型再驗證/修正。

看起來mimo模型原生的集成了這個模塊，讓大模型自己在一步里“預測多個未來 token”，而不是傳統的另外訓練一個“草稿模型”。

基本上就是用hybrid attention（swa +ga） + mtp這倆工具把“長上下文 + 推理速度”這兩大痛點壓下去（省顯存、省算力、輸出更快），打造出了這一款最新的國產大模型。

速度肯定是快，因為很多巧思都用在了速度和效率上。

但是天下沒有免費的午餐。

性能肯定不會拔尖，但是我覺得對於小米來說關係不大，快和能用比較重要。

小米模型的性能優化

在性能上，看起來小米幹了三件事：

multi-teacher on-policy distillation (mopd)

第一個很有意思，最近看了一個帖子，說是的2025年最流行的policy optimization algorithms，看起來小米自己也做了一個mopd，不過好不好用現在還很難說，過幾個月看有多少人用就知道了。

ppo (proximal policy optimization)

grpo (group relative)

gspo (group sequence)

dapo (decoupled clip and dynamic sampling)

bapo (balanced)

arpo (agentic reinforced)

scaling agentic rl

第二個，scaling agentic rl

我覺得這應該是小米的強項，因為它的小米生態裡面有太多的任務可以拿來測試了，甚至這應該是小米未來最強的點。

就跟nano banana之於google一樣，人家的強項就是數據，openai的圖像生成你再怎麼搞也不可能老大。

而小米的優勢就是硬件生態，甚至說能搞出豆包ai手機一樣的東西也不是不可能。

advanced rl infrastructure

第三個，advanced rl infrastructure

講的是大規模訓練時候的細節問題，本質上就是“你論文里寫一句話，工程上要填一萬個坑”的那種東西：moe 的路由一致性、rollout 和訓練對齊、前綴緩存、多輪工具調用的資源調度、長尾任務拖慢 gpu 利用率，都是這種體系一旦做大就繞不開的臟活累活。

這部分一般不太容易刷出一個“新算法名字”，但反而最能體現一個團隊到底有沒有真把系統跑起來。

所以我對 mimo-v2-flash 的整體判斷很簡單：它不是那種要拿第一名的模型，而是那種“為了能落地、能跑得快、能接得上產品”而做出來的模型。

如果小米接下來能把它真正放進自己的硬件生態里，讓它變成一個穩定可用的能力層（而不是停留在論文和榜單里），那它的意義會比單純刷幾個分大得多。

至於它最後能走多遠，其實就看兩件事：

第一，有多少開發者願意用它、圍繞它做應用。

第二，小米能不能把“模型”變成“系統能力”，從手機到家電到車機，真正連成一條鏈。

相關文章:

相關文章

長城汽車冰雪歡樂周啟幕，老魏與用戶一起暢玩冰雪

蔚來|“砸鍋賣鐵”盈首利，全年扭虧懸念待解

與時代同行 啟產業新程 一汽-大眾成立35周年

與時代同行啟產業新程一汽-大眾成立35周年