來源:市場資訊
來源:北大AI魚博士
時間: 2025年11月19日凌晨04:00
坐標: 矽谷/北京
兄弟們,今晚徹底不用睡了。
就在剛剛,當半個地球的人還在睡夢中時,Google 在沒有任何預警的情況下,像是突然被“奪舍”了一樣,極其凶殘地按下了一個紅色的核按鈕——Gemini 3.0 正式發布。
![]()
沒有漫長的預熱,沒有虛頭巴腦的概念片,直接上線Model Card(模型卡片),直接開放API,直接端出應用平台。
如果說兩年前的Gemini 1.0 是一次倉促的追趕,一年前的Gemini 2.0 是一次平起平坐的嘗試,那麼今天凌晨的Gemini 3.0,給我的感覺只有兩個字:窒息。
這不是形容詞,是物理意義上的窒息。看完長達60 頁的技術報告和20 個演示視頻後,我必須負責任地說:Google 這次不裝了,它不僅掀翻了牌桌,甚至把房子都拆了。
連OpenAI 的掌門人Sam Altman,都在半夜罕見給這一波發佈點了個贊。這個贊背後的意味,是英雄惜英雄,還是感到脊背發涼,大家自己細品。
![]()
在這篇長文中,我將帶大家逐幀拆解Gemini 3 到底強在哪裡,為什麼說它宣告了“Prompt Engineer(提示詞工程師)”的死亡,以及它如何開啟了軟件開發的“自動駕駛”時代。
01. “滿分”的恐怖:當AI 終於捅穿了人類智商的天花板
不僅是強,而是“離譜”。
我們先看一張讓所有數學家、做題家以及競爭對手都陷入沉默的圖表。
![]()
在AIME 2025(美國數學邀請賽) 的測試中,配合代碼執行(Code Execution),Gemini 3 Pro 的準確率是:100%。
你沒看錯,是100%。是滿分。
以前我們在評測GPT-4 或者Claude 3.5 的時候,還在討論“這道幾何題它是不是蒙對的”、“這個邏輯陷阱它有沒有跳過去”。但Gemini 3 用這個滿分直接終結了討論:在現有的標準化數學測試體系下,它已經沒有對手了,甚至連測試題都不夠用了。
即使是撤掉所有工具,讓他“裸考”(無工具模式),它的準確率也高達95.0%。作為對比,GPT-5.1 是94.0%,Claude Sonnet 4.5 是87.0%。
但這還不是最嚇人的。
真正的屠殺發生在一個叫MathArena Apex 的榜單上。這是數學競賽的“地獄模式”,裡面的題目充滿了複雜的陷阱和極度晦澀的邏輯。在這個榜單上,包括GPT-5.1 在內的所有頂尖模型,得分都在1% 上下徘徊——這說明它們基本是在瞎蒙。
而Gemini 3 Pro 呢?它拿到了23.4%。
兄弟們,從1% 到23.4%,這不僅僅是分數的提升,這是**“不可知”到“可知”的維度跨越**。這證明了Gemini 3 不再是依靠概率預測下一個字的“鸚鵡”,它真正具備了深度推理(Reasoning)的能力。
核武器:Deep Think(深度思考模式)
Google 這次還藏了一手絕活——Gemini 3 Deep Think。
你可以把它理解為Google 版的o1,但更強、更穩。在這個模式下,模型會花更多時間進行思維鏈(CoT)的推導。
![]()
![]()
然而,Gemini 3 Deep Think 在不使用任何工具的情況下,直接轟出了41.0% 的高分。
這是什麼概念?這意味著在純粹的智力攻堅戰中,在處理那些需要層層剝繭、邏輯嵌套極其複雜的博士級難題時,Gemini 3 已經甩開了競爭對手整整一個身位。
02. 72.7% vs 3.5%:GPT-5 就像個“瞎子”
如果說數學能力是“大腦”,那麼接下來的這個數據,關乎AI 的“眼睛”。而這,正是Google 這一次能做成“真·Agent”的關鍵勝負手。
在AI 圈子裡,大家一直有個痛點:大模型雖然聰明,但它們對計算機屏幕的理解能力極差。給它截個圖,它可能認不出哪個是“提交”按鈕,哪個是“終端窗口”。
Google 這次專門針對Screen Understanding(屏幕理解) 進行了魔鬼般的優化。
看ScreenSpot-Pro 這一欄數據:
GPT-5.1 得分:3.5%Gemini 3 Pro 得分:72.7%
炸裂嗎?這是20 倍的差距!
這意味著什麼?
意味著GPT-5.1 在面對複雜的操作系統界面時,基本等同於一個“瞎子”。它只能靠猜,或者靠你把代碼複製出來餵給它。
而Gemini 3 Pro 擁有了“像素級的視覺智能”。它能像人類一樣,看懂IDE 裡的報錯紅線,看懂瀏覽器渲染出的UI 錯位,看懂終端裡滾動的日誌。
正是因為有了這雙“眼睛”,Google 才敢在今晚發布那個讓所有程序員既興奮又恐懼的產品——Antigravity。
03. Antigravity:程序員的“賈維斯”時刻
今晚發布會的真正高潮,不是模型本身,而是一個名為Google Antigravity(反重力) 的全新開發平台。
之前大家都在吹Cursor,說它是程序員最好的“外骨骼”。 Cursor 的邏輯是:你寫代碼,AI 幫你補全;你問問題,AI 幫你回答。
![]()
但Antigravity 的邏輯是:“你喝咖啡,我來搞定。”
Google 極其囂張地將其定義為Agent-first(智能體優先) 平台。
什麼是“Vibe Coding”(直覺編程)?
Google 提出了一個新詞:Vibe Coding。
意思是,你只需要把握一種“感覺”(Vibe),一種模糊的想法或意圖,剩下的實現細節,全部交給AI。
Antigravity 不再是一個編輯器,它是一個擁有完整權限的虛擬員工。它集成了Gemini 3 的推理大腦,配合Gemini 2.5 Computer Use 模型(那是它的手),它可以直接控制你的VS Code,直接在你的Terminal 裡敲命令,直接打開你的Chrome 瀏覽器去測試網頁。
實測案例:它真的在“自己幹活”
讓我們來看看Google 放出的那個讓GitHub Copilot 看起來像上個世紀產物的演示——“開發一個航班追踪App”。
第一步:任務下發
開發者只在對話框裡輸入了一句:“幫我做一個航班追踪應用,要有地圖可視化。”
第二步:多Agent 分裂(並行開發)
Antigravity 瞬間在後台分裂出多個Agent:
- Agent A(後端專家)
: 開始規劃API 接口,編寫Python 後端代碼。
- Agent B(前端專家)
: 開始寫React 組件,並調用Nano Banana 模型生成了所需的UI 圖標素材。
- Agent C(測試專家)
: 這個最騷。它直接打開了一個內置的瀏覽器窗口,像真人一樣去點擊頁面上的按鈕。
第三步:自我糾錯
Agent C 發現地圖加載不出來,報錯了。注意,這時候開發者什麼都沒做。
Agent C 迅速截取了報錯的屏幕(得益於那72.7% 的屏幕理解能力),扔回給Agent A。
Agent A 秒懂:“哦,API Key 沒配置。”
它自己打開配置文件,填入Mock 數據,重啟服務。
Agent C 刷新頁面:“通了。”
整個過程,開發者就像是一個P8 級別的架構師,只是在旁邊看著,偶爾點個“Approve(批准)”。

賺錢能力:它比你更懂商業
為了證明Antigravity 不僅僅是個代碼生成器,而是一個能解決複雜現實問題的Agent,Google 搬出了Vending-Bench 2 測試。
這是一個模擬經營自動售貨機公司的測試,考察模型在長達一年的虛擬時間裡,能否持續做出正確的維護、進貨和定價決策。
結果相當諷刺:
GPT-5.1 忙活了一年,淨資產賺了$1,473.43。 Gemini 3 Pro 忙活了一年,淨資產賺了$5,478.16。
Gemini 3 不僅代碼寫得好,它還沒忘記這生意的本質是賺錢。它不僅是一個Coder,更是一個Manager。
04. 對SWE-Bench 的爭議:為什麼Google 不在乎SOTA?
眼尖的朋友可能發現了,在衡量軟件工程能力的SWE-Bench Verified 測試中,Gemini 3 Pro 得分76.2%,雖然極強,但並沒有超過Claude Sonnet 4.5 的77.2% 拿到世界第一(SOTA)。
有人可能會說:“你看,Google 還是不行嘛,寫代碼還是不如Claude。”
大錯特錯。
這正是Google 的雞賊之處,也是Antigravity 的可怕之處。 SWE-Bench 測的是單一模型解決GitHub Issue 的能力。但Google 的思路是:我為什麼要用一個模型去死磕?我用的是系統工程(System 2)。
Antigravity 的核心在於“工具鏈的整合”。
Claude 寫代碼也許略強1%,但Claude 沒有原生集成到瀏覽器裡去點點點,沒有原生集成到終端裡去運行npm install。
Google 用76.2% 的模型能力,加上100% 的系統權限整合,加上72.7% 的視覺理解,構建出了一個**“能跑通最後一公里”**的解決方案。
對於開發者來說,我不在乎你的代碼是不是寫得最最最優雅,我在乎的是當你寫完代碼報錯的時候,能不能自己幫我修好?
在這點上,Gemini 3 + Antigravity 目前是無敵的。
05. 搜索與生活:AI 終於學會“說人話”了
除了硬核的編程,Gemini 3 在消費級產品上的落地也讓人眼前一亮。
我們都受夠了以前AI 那種“作為一個大型語言模型,我建議你……”的爹味說教。
Google 這次在Model Card 裡專門寫了一句話:”Telling you what you need to hear, not just what you want to hear.”(告訴你需要的,而不是你想听的。)
它學會了“Read the room”(讀懂空氣)。
AI Mode in Search:不再是給鏈接,而是給答案
Google 搜索正式上線了AI Mode。這不是簡單的搜索生成體驗(SGE)升級,這是**“即時軟件生成”**。
演示中,用戶搜索“RNA 聚合酶是如何工作的?”
以前的搜索會給你一堆維基百科和生物學網站的鏈接。
現在的Gemini 3,直接在搜索結果頁裡,當場寫代碼生成了一個可交互的3D 分子模型。你可以用鼠標拖拽這個模型,看酶是怎麼結合的。
注意,這個3D 模型不是預先存在網上的,是Gemini 3 根據你的問題,On the fly(實時) 敲代碼寫出來的。
多模態的溫情時刻
還有一個案例特別打動我。
你想學習家里長輩傳下來的做菜手藝,但長輩只會寫潦草的方言筆記。 你把這些筆記拍照扔給Gemini 3,再上傳一段長輩做菜的視頻。
Gemini 3 不僅能識別那些連人都看不懂的字跡,還能結合視頻動作,生成一份圖文並茂、甚至帶有“交互式倒計時”的電子食譜,順便還能生成一段代碼,把這個食譜做成一個精美的網頁分享給家族群。
這就是Google 宣稱的:Learn anything, Build anything, Plan anything.
06. 護城河:Google 的“鈔能力”與數據霸權
為什麼是Google?為什麼不是OpenAI?為什麼不是Anthropic?
在大模型跑馬拉鬆的後半程,拼的早已不是單一算法的靈光一閃,而是算力、數據和生態的厚度。
1. TPU 的矽基霸權:
當全世界都在跪求黃仁勳分配一點H100 顯卡時,Google 坐在自家堆積如山的TPU v5/v6 礦山上笑而不語。
TPU 是專門為Transformer 架構設計的,擁有極高的帶寬內存(HBM)。正是這種算力冗餘,讓Google 敢於把Gemini 3 的參數規模推向極致,敢於讓millions of users 同時使用Deep Think 這種極度消耗算力的模式。
2. 數據的全維度覆蓋:
Gemini 3 的訓練數據不僅是網上的文本。它吞噬了YouTube 的長視頻(視頻理解能力的來源)、GitHub 的代碼庫、Google Scholar 的論文,以及——User Data(用戶數據)。
當然,是在隱私協議下。但無可否認,Google 擁有地球上最龐大的用戶交互數據。它知道用戶在搜索什麼,在點什麼,在改什麼代碼。這些Human Feedback(人類反饋),是模型“情商”來源的根本。
07. 結語:不要焦慮,去成為那個“架構師”
看完發布會,我看很多技術群裡開始哀嚎:“完了,程序員真要失業了。”
說實話,看完Antigravity 的演示,初級“碼農”(Coder)確實該抖三抖了。如果你的工作只是把產品經理的需求翻譯成代碼,那Gemini 3 幹得比你快、比你好、還比你便宜。
Architect(架構師) 不會死。

Gemini 3 的出現,實際上是把軟件開發的門檻再次拉低,同時把天花板無限拉高。
以前,你想做一個“3D 飛船遊戲”,你需要學Unity,學C#,學3D 建模,折騰一個月。
現在,你只需要在Antigravity 裡告訴Gemini 3:“我要一個複古像素風的3D 飛船遊戲,要有光影渲染。”
30 秒後,遊戲跑起來了。
這時候,什麼最重要?
-
你的品味(Taste): 你知道什麼樣的遊戲好玩。
-
你的創意(Idea): 你有別人想不到的點子。
-
你的判斷力(Judgment): 你知道AI 給出的方案裡哪個是最好的。
Google 用Gemini 3 告訴我們:AI 不是來替代你的,它是來幫你把腦海中那個最瘋狂的想法,以光速變成現實的。
在這個新時代,最大的風險不是AI 太強,而是你還抱著舊工具不放。
![]()
行動!
現在,Gemini 3 已經全面上線。 Antigravity 雖然還是Preview,但一定要去申請。
別睡了,起來試用。因為今晚之後,世界已經變了。