用手機就能開發多模態應用？Gemma 3n帶來開發者工具新革命

▲GEMMA 3N 。（圖／ GOOGLE DEEPMIND）

記者吳立言／綜合報導

Google DeepMind全面釋出全新一代「行動裝置導向」的多模態AI模型Gemma 3n。此版本不僅強調原生支援影像、音訊、影片與文字輸入，更以高效能、低記憶體佔用為核心，開啟在手機、邊緣設備上實現雲端等級AI能力的新時代。

Gemma 3n提供兩個主力版本：E2B（5B 參數）與E4B（8B 參數），在搭載創新的MatFormer（巢狀式轉換器）架構與PLE（）技術下，即使在僅有2到3GB記憶體的裝置上亦能順暢運作。根據官方資料，E4B模型在LMArena多任務測試中獲得逾1300分的Elo評分，創下10B以下模型的全新紀錄。除了多模態處理與高效能表現，Gemma 3n還導入：

KV Cache Sharing機制：加快長文本、多媒體串流處理速度，實測前置階段推理時間提升達 2 倍。

先進語音編碼器（USM）：支援即時語音辨識（ASR）與語音翻譯（AST），特別在英西、英法語系表現優異。

MobileNet-V5視覺編碼器：為行動設備最佳化設計的影像處理模型，可支援高達60FPS的視訊分析任務。

Gemma 3n支援開發者利用Hugging Face、llama.cpp、Ollama、MLX等主流工具進行微調與部署，並能搭配Google AI Studio或Vertex AI平台直接測試與發布模型。DeepMind同時宣布啟動「Gemma 3n Impact Challenge」，總獎金15萬美元，鼓勵全球開發者打造具影響力的應用產品。

Gemma系列自去年推出以來，全球累積下載數已突破1.6億次，涵蓋醫療、安全、語言學習與電腦視覺等領域。Gemma 3n的全面釋出，代表著行動端AI進入高度整合、低功耗、高效能的新階段，預計將對產業與開發社群產生深遠影響。

標題：用手機就能開發多模態應用？Gemma 3n帶來開發者工具新革命

聲明：本文版權屬原作者。轉載內容僅供資訊傳遞，不涉及任何投資建議。如有侵權，請立即告知，我們將儘速處理。感謝您的理解。

用手機就能開發多模態應用？Gemma 3n帶來開發者工具新革命

相關文章：

相關文章:

相關文章：

相關文章:

相關文章

AI能否超越人類？中南大學院士，走進武鋼三中，開講“硬核”AI課

漲價壓不住、補貼夠不着，這個五一6000元以上機型難住手機經銷商

採購禁入！科華數據材料造假被拒門外