小米發了個 310B:性能不一定最強,但路線很現實

今天我有一個考試,考試前的半個小時刷twitter,看到了小米發布的模型,但是沒顧得上仔細看,晚上再看的時候。
覺得這貌似是前deepseek的核心參與者fuli luo,到新公司小米之後正式發布的第一條twitter,所以從含金量上來說肯定是拉滿了。

小米發了個 310B:性能不一定最強,但路線很現實 -
當然事實上也的確是,從小米的huggingface上可以看到,mimo-v2-flash是一個單獨的系列,相比起其他系列,這個系列最大的特點就是大,足足有310b,而其他的都只有8b。
小米發了個 310B:性能不一定最強,但路線很現實 -
很明顯的,8b的模型唯一的優勢就是速度快,但是要談到能用的程序,還遠遠不夠。
而310b這個量級,基本上可以說是夠用了。
為什麼說是夠用呢,因為小米這種公司本身就不是搞ai的,所以把ai刷到世界第一既不可能,也沒有太大的必要。
最重要的是夠用和好用,最好是能跟小米的整個硬件生態關聯上。
有些人可能會提到這不就是刷benchmark嗎?這話怎麼說的。沒有新出的大模型不刷benchmark的,因為如果沒有在benchmark上達到sota,那就根本沒有發布的意義。
小米發了個 310B:性能不一定最強,但路線很現實 -
其實刷benchmark也是有策略的,大多數情況就是小米這樣,拿通用的benchmark跑一遍,跑到大多數達到sota即可。
而有些公司,比如openai,他們是發現普通的benchmark都被刷爛了,再刷也很難體現他們的斷崖式領先了,所以他們會有動力搞新的benchmark,這就是所謂的規則制定者。
所以,刷榜正常也非常的必要。
至於真實的使用性能,我覺得對於小米的模型來說,能夠實現deepseek級別的理解能力,其餘的都應該放到efficient上。
而實際上小米的整個模型也是這麼乾的。

01

小米模型的技術策略
第一,架構設計
5層sliding window attenion(swa)+1層global attention(ga),然後重複8次,可以大多數的層都很省,只有1/9的層在做大批量運算。
小米發了個 310B:性能不一定最強,但路線很現實 -
小米發了個 310B:性能不一定最強,但路線很現實 -
但swa的窗口很小,所以出現attention sink,看起來mimo專門在這個地方打了補丁。
第二,lightweight multi-token prediction(mtp):輕量多 token 預測
傳統的大模型一個token一個token的吐,慢和貴,一次性吐好幾個肯定快,但是穩定性就很難說了。
它這裡提到的speculative decoding(投機解碼),就是用一個小模型先“草擬一串 token”,大模型再驗證/修正。
看起來mimo模型原生的集成了這個模塊,讓大模型自己在一步里“預測多個未來 token”,而不是傳統的另外訓練一個“草稿模型”。
基本上就是用hybrid attention(swa +ga) + mtp這倆工具把“長上下文 + 推理速度”這兩大痛點壓下去(省顯存、省算力、輸出更快),打造出了這一款最新的國產大模型。

速度肯定是快,因為很多巧思都用在了速度和效率上。
但是天下沒有免費的午餐。
性能肯定不會拔尖,但是我覺得對於小米來說關係不大,快和能用比較重要。

02

小米模型的性能優化
在性能上,看起來小米幹了三件事:
multi-teacher on-policy distillation (mopd)
第一個很有意思,最近看了一個帖子,說是的2025年最流行的policy optimization algorithms,看起來小米自己也做了一個mopd,不過好不好用現在還很難說,過幾個月看有多少人用就知道了。

ppo (proximal policy optimization)
grpo (group relative)
gspo (group sequence)
dapo (decoupled clip and dynamic sampling)
bapo (balanced)
arpo (agentic reinforced)
scaling agentic rl
第二個,scaling agentic rl
我覺得這應該是小米的強項,因為它的小米生態裡面有太多的任務可以拿來測試了,甚至這應該是小米未來最強的點。
就跟nano banana之於google一樣,人家的強項就是數據,openai的圖像生成你再怎麼搞也不可能老大。
而小米的優勢就是硬件生態,甚至說能搞出豆包ai手機一樣的東西也不是不可能。
advanced rl infrastructure
第三個,advanced rl infrastructure
講的是大規模訓練時候的細節問題,本質上就是“你論文里寫一句話,工程上要填一萬個坑”的那種東西:moe 的路由一致性、rollout 和訓練對齊、前綴緩存、多輪工具調用的資源調度、長尾任務拖慢 gpu 利用率,都是這種體系一旦做大就繞不開的臟活累活。

這部分一般不太容易刷出一個“新算法名字”,但反而最能體現一個團隊到底有沒有真把系統跑起來。
所以我對 mimo-v2-flash 的整體判斷很簡單:它不是那種要拿第一名的模型,而是那種“為了能落地、能跑得快、能接得上產品”而做出來的模型。

如果小米接下來能把它真正放進自己的硬件生態里,讓它變成一個穩定可用的能力層(而不是停留在論文和榜單里),那它的意義會比單純刷幾個分大得多。

至於它最後能走多遠,其實就看兩件事:
第一,有多少開發者願意用它、圍繞它做應用。
第二,小米能不能把“模型”變成“系統能力”,從手機到家電到車機,真正連成一條鏈。
分享你的喜愛