小米深夜正式上線三款全新自研大模型:旗艦MiMo-V2-Pro、全模態基座Omni、語音合成TTS,可限時免費體驗一周

it之家3 月 19 日消息,今天凌晨,小米宣布推出三款大模型 —— mimo-v2-pro & omni & tts。目前,這些模型已經登陸 xiaomi miclaw、mimo studio、金山辦公、小米瀏覽器,通過 openclaw、opencode、kilocode、blackbox、cline 接入,可限時免費體驗一周。

小米深夜正式上線三款全新自研大模型:旗艦MiMo-V2-Pro、全模態基座Omni、語音合成TTS,可限時免費體驗一周 -

官方對各模型的介紹如下:

小米麵向 agent 時代的旗艦基座模型:xiaomi mimo-v2-pro

xiaomi mimo-v2-pro 專為現實世界中高強度的 agent 工作場景而打造。其擁有超過 1t 的總參數量(42b 激活參數),採用創新的混合注意力架構,並支持 1m 超長上下文長度。小米還在更為廣泛的 agent 場景中持續 scaling 算力,進一步拓展了智能的動作空間,實現了從 coding 到 claw 的重要泛化。在 artificial analysis 排行榜上,mimo-v2-pro 位列全球第八,國內第二。

小米深夜正式上線三款全新自研大模型:旗艦MiMo-V2-Pro、全模態基座Omni、語音合成TTS,可限時免費體驗一周 -

在 openclaw、claude code 等智能體框架中,mimo-v2-pro 能夠在無人工干預的條件下完成複雜工作流編排、長程規劃與精準工具調用,並持續可靠地交付最終結果。整體使用體感已超越 claude sonnet 4.6,逼近 opus 4.6,但模型 api 定價僅為其 1/5,降低了前沿智能的使用門檻。

mimo-v2-pro 專為 agent 場景深度優化。其針對複雜多樣的 agent scaffold 進行 sft & rl,具備更強的工具調用與多步推理能力。在 openclaw 標準評測榜單 pinchbench、claweval 上,mimo-v2-pro 效果處於全球頂尖。同時,憑藉 1m 上下文窗口,mimo-v2-pro 能夠從容支撐高強度的真實 claw 複雜應用流。

小米深夜正式上線三款全新自研大模型:旗艦MiMo-V2-Pro、全模態基座Omni、語音合成TTS,可限時免費體驗一周 -

mimo-v2-pro 能夠參與更嚴肅的代碼工程構建。內部工程師評測顯示,其體感已接近 claude opus 4.6,並展現出高階的代碼智能:擁有更出色的系統設計與任務規劃能力、更優雅的代碼風格,以及更高效直接的問題解決路徑。

mimo-v2-pro 模型現已正式開放 api 服務,支持 1m 上下文長度,並根據使用量分段計價:

256k 上下文以內:輸入 $1 / 百萬 tokens,輸出 $3 / 百萬 tokens

1m 上下文以內:輸入 $2 / 百萬 tokens,輸出 $6 / 百萬 tokens

訪問 https://platform.xiaomimimo.com,即刻接入 api。

mimo claw 模塊現已全面打通金山 weboffice 生態。原生支持 word、excel、ppt、pdf 四大主流格式,無縫覆蓋超 95% 的日常文檔類型。

xiaomi mimo 底層推理引擎與金山辦公生態實現框架級集成。wps 靈犀現已接入 mimo-v2-pro 模型,向靈犀 claw 提問或布置任務,辦公更高效。

小米麵向 agent 時代的全模態基座模型:xiaomi mimo-v2-omni

其專為現實世界中複雜的多模態交互與執行場景而生,可無縫接入各種 agent 框架,實現了從理解到操控的跨越,大幅降低了全模態 agent 的落地門檻。

小米深夜正式上線三款全新自研大模型:旗艦MiMo-V2-Pro、全模態基座Omni、語音合成TTS,可限時免費體驗一周 -

音頻理解方面,支持從環境聲分類、多說話人分離、音頻-視覺聯合推理,到超過 10 小時連續長音頻的深度理解。綜合表現超越 gemini 3 pro,是當前最強的音頻理解基座模型之一。

圖像理解方面,mimo-v2-omni 展現出強大的多學科視覺推理與複雜圖表分析能力,超越 claude opus 4.6,逼近 gemini 3 pro 等頂尖閉源模型水平。

視頻理解方面,支持原生音視頻聯合輸入,實現真正的多模態視頻理解。通過創新的視頻預訓練,模型具備強大的情境感知與未來推理能力。

mimo-v2-omni 能夠跨模態理解複雜環境、自主制定並執行計劃、在遇到異常時實時修正策略,最終端到端地交付完整結果。

mimo-v2-omni 模型現已正式開放 api 服務,支持 256k 上下文長度,輸入 $0.4 / 百萬 tokens,輸出 $2 / 百萬 tokens。

訪問 https://platform.xiaomimimo.com,即刻接入 api。

此外,mimo-v2-omni 聯合 openclaw、opencode、kilocode、blackbox 及 cline 等五大 agent 開發框架團隊,為全球開發者提供為期一周的限時免費接口支持。

專為 agent 時代的全模態交互而生:xiaomi mimo-v2-tts 語音合成大模型

xiaomi mimo-v2-tts 是小米自主研發的語音合成大模型。它基於自研 audio tokenizer 和多碼本語音-文本聯合建模架構,經過上億小時語音數據的大規模預訓練與多維度強化學習,實現了高度可控的多粒度語音風格控制。mimo-v2-tts 支持從整體風格定調到局部情緒表達的精準調節,能在同一句話內完成語氣轉折和情感遞變;真實還原人類說話的自然韻律;在唱歌時,也能準確表達音高和節奏,自然且富有表現力。

在訓練過程中,mimo-v2-tts 首先通過超大規模語音-文本混合預訓練,在海量數據中習得了強大的跨模態對齊與理解生成的統一能力;在此基礎上,通過少量高質量監督數據的微調,模型獲得了可泛化的多粒度與多風格指令控制能力。

為進一步激發模型在大規模預訓練中積累的高表現力語音生成潛力,小米引入了多維度強化學習,兼顧了穩定性與表現力。具體而言,mimo-v2-tts 在強化學習階段,圍繞更自然的韻律、更穩定的音質、更準確的字詞表達、更高質量的音色克隆以及不同場景下恰當的語氣和表達方式等多個維度持續優化。得益於多層碼本建模架構,模型在高保真的離散 token 空間中對語音進行建模,充分保留了原始語音中的豐富信息,使強化學習階段能夠直接利用語音相關獎勵信號對模型進行優化,從而讓多維獎勵信號更有效地作用於生成過程。

mimo-v2-tts 支持從整體到局部的多層次語音風格控制。用戶可通過自然語言指令設定整體語音基調,同時對句內局部片段進行細粒度的情緒調節,實現同一語句中語氣轉折與情感遞變的自然過渡。

該模型還具備豐富的多元表達能力:支持多種方言的自然發音,可進行角色扮演式的風格化演繹,更能實現高質量的歌聲合成 —— 讓同一個模型既能說、能演、也能唱,支持東北話、四川話、河南話、粵語、台灣腔等多種方言。

來源:it之家、小米科技

(來源:荊楚網微信公眾號)

分享你的喜愛