AI能做研究嗎?UniPat AI開源UniScientist,30B小模型給出肯定答案

機器之心報道

多數大模型能產生“看起來像」研究的文本，但極少數能真正做研究—— 提出假設、收集證據、執行可複現的推導、迭代驗證直至結論成立。

先前發布了BabyVision 評測基準(已被多個近期發布的重磅模型納入評測體系)的優尼帕特人工智慧在最新的Blog《UniScientist：推廣通用科學研究智能》中給了一個清晰而有系統的答案。

UniPat AI 開源的UniScientist 訓練了一個30B 參數的模型來閉合這一環路。在FrontierScience-Research 和ResearchRubrics 等科學研究榜單上，它匹敵甚至超越了參數量大一個數量級的頂尖閉源模型。

開源位址：https://github.com/UniPat-AI/UniScientist
部落格：https://unipat.ai/blog/UniScientist

01｜「會寫報告」不等於「會做研究」：實現流程閉環才是能力

今天很多模型做“研究任務”，只是看起來像在做科學研究：引用一堆資料、寫一堆邏輯、格式也像論文。

但問題是：它們經常停在「敘事推理」、從「結論」出發的邏輯陷阱中—— 說得很像、驗證很少、推導不穩、可復現性弱。

UniPat AI 在UniScientist 中直接回應了這個缺口：

僅有30B 參數的UniScientist 具備了「自主科學研究」的能力—— 在開放問題裡不斷提出、證偽、修正，直到證據狀態穩定，再把全過程沉澱成結構化成果。

這背後的潛台詞很直白：

真正的科研，不只是把報告寫漂亮；更是把「假設- 證據- 驗證」的循環跑通。

02｜資料瓶頸：人寫得太慢，純合成不夠“真”

UniScientist 首先把矛頭指向了資料：如何建立高品質科研訓練資料一直是硬瓶頸。現有方案幾乎只有兩種極端：

純人工：生態真實、判斷精準，但昂貴、慢、仍受限於單一專家的學科邊界；
純合成：規模龐大、成本低，但常缺乏可判別的精準度和學科落地的真實性。

UniScientist 的關鍵洞察源自於一個被廣泛忽視的不對稱性。

大語言模式更擅長產生：能跨學科大規模地提出候選研究問題和解法草案。
人類專家更擅長驗證：鑑別研究的真偽和質量，其成本和難度遠低於從零創造，且能提供高精度的學科把關。

這種不對稱性指向了一種更有效率的分工方式：模型負責規模與多樣性，人類專家負責品質與可驗證性。這正是UniScientist 資料引擎的核心原則— 產出的訓練實例既有廣泛的專業覆蓋面，又有嚴格的驗證保障。

03｜形式化科學研究：證據狀態與溯因假設的動態系統

許多關於「科研智能」的討論聚焦在更好的工具呼叫或更精準的檢索。 UniScientist 則在更本質的層面展開工作。團隊將開放式科學研究流程建模為基於兩個基本操作的動態系統：主動證據整合（Active Evidence Integration）與模型溯因（Model Abduction）

系統的核心是一個不斷演化的“證據狀態”，其中證據被分為兩類。

Evidence-Grounded（可獨立核驗的證據）：來自外部權威來源，或內部產出但經過明確檢查驗證；
Formally-Derivable（可形式化推導/ 復現的證據）：透過符號推導、數值計算、模擬實驗等可複現程序得到。

然後系統循環執行三個動作：

1. 產生假說

2. 取得外部權威資訊證據、計算與推導證據

3. 做溯因更新：讓假說更好地解釋當前證據狀態

直到證據夠完整穩定，再把整個研究過程轉化成一份嚴謹的科學成果。

這一形式化具有重要意義：它將「科研智能」從一個遠大理想，變成了可訓練、可評估、可迭代的對象。

04｜把開放的科學研究問題變成“可驗證的單元測試”

UniScientist 提出了Evolving Polymathic Synthesis（進化式多學科合成），一個承擔兩項功能的資料引擎。

1. 從經過專家驗證的科學Claim 出發，將其擴展為研究級問題—— 跨越多個相互依賴的子問題，要求實驗設計與推導協同

2. 同步合成評測Rubrics。這些Rubrics 不評估文風或格式等表面質量，而是評估具體的科學發現是否已達成

這項設計中最具辨識度的特徵是：

一份開放式科學研究成果被分解為N 個封閉的、可獨立驗證的Rubric 檢查項目。

每個Rubric item 都盡量做到：原子化、客觀、可證據落地或可形式化推導，並額外強調：

一致性（相同科研成果，重複評測應穩定）
區分度（能拉開不同完整度的差異）
原子性（單條rubric 只校驗一個知識點）

目前資料集仍在持續擴展中，已包含超過4,700個研究層級實例，每個實例附有20+條Rubric 項，覆蓋50+學科和400+研究方向。專家標註平均每個樣本投入1-2 小時。學科覆蓋從量子物理和有機化學到社會文化人類學和計算語言學都有涉及。

資料集中包含了具備真實科學研究質感的研究問題。下圖展示的是生態學方向的範例，完整案例庫可在https://unipat.ai/blog/UniScientist 查閱。

這些問題的共同特徵在於：沒有任何一道可以透過配對記憶中的既有答案來直接解決。每一道都要求完整的科學研究鏈－文獻研究、假設形成、實驗或推導設計、分析驗證、以及最終成果的收斂。

05｜從單點生成到群體智慧

UniScientist 引入了一個額外的訓練目標，成果聚合目標

給定同一問題的N 份候選科研成果，模型學會融合各家優點，產出一份更完整、更穩健的最終成果。透過Rubric 閾值的rejection sampling 來篩選高品質參考答案，聚合能力與科學研究產生能力一同被訓入模型。

這反映了科學研究中的一個現實：對於一個問題，一次嘗試不一定會帶來最好的成果。這實際上是將“集體科學研究智能」寫進了訓練過程：

模型不僅學會了產出研究，也學會了比較、取捨、整合與自我演化。

06｜30B 小模型比肩最大規模封閉系統

評測結果引人注目，尤其考慮到模型的規模。

UniScientist-30B-A3B—— 一個僅有3B 活化參數的小模型—— 在前沿科學研究上達到28.3分，超越Claude Opus 4.5（17.5）、Gemini 3 Pro（12.4）和GPT-5.2 xhigh completion mode（25.2）以及工具調用模式下的DeepSeek V3.2（26.7）和Seed 2.0 Pro（26.7）。在成果聚合模式下，得分達到33.3

前沿科學奧林匹克競賽上，啟用工具的UniScientist 得分71.0，匹配Claude Opus 4.5，超越多個其他前沿模型。在多項分佈外的基準—DeepResearch Bench、DeepResearch Bench II 和 ResearchRubrics上—— 模型的表現與一系列頂級封閉系統相當。

一個特別重要的發現：即使在无工具的评测条件下，性能仍有显著提升

這表明增益並非單純來自更頻繁的工具使用，模型本身的研究推理能力確實透過訓練得到了增強。

所有基準上的結果指向同一結論：模型學會的不只是更好地檢索，而是將檢索、推導、驗證和寫作整合為連貫的研究工作流程。