——背景——
2025年,隨著開源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下飛速發展。LLM 在自然科學領域的應用已從簡單問答轉向復雜科學推理。然而,現有通用科學基準測試已趨于飽和,前沿模型在 GPQA Diamond 上的分數也已經超過90分;化學領域專用基準往往關注基礎化學能力、化學信息學任務等,缺乏對化學領域深度推理能力的考察。
從基礎教育、化學奧林匹克競賽到大學乃至研究生階段,化學學習始終強調知識的綜合運用與多步推理。這一學習過程能有效考察復雜化學問題的解決能力,成為評估化學推理水平的理想場景。相應地,要設計出適用于此類評估的高質量題目,必須將抽象概念與具體情境深度融合,構建出層層遞進的推理鏈條,這對出題者的專業素養提出了極高要求。北京大學化學與分子工程學院擁有國內水平頂尖的本科生和研究生群體,他們兼具扎實的學科功底與豐富的解題、命題經驗,能夠對已有題目素材進行準確評估與合理優化。
北京大學研究團隊充分發揮這一獨特優勢,召集大量優秀學生共同構建了 SUPERChem 基準測試,填補了現有評估體系在多模態化學深度推理方面的空白。

圖1. SUPERChem 總覽與例題
——數據構建——

圖2. SUPERChem 題庫的三階段審核流程
SUPERChem 題庫由近百名北京大學化學專業的師生共同構建,涵蓋題目編寫、解析撰寫以及嚴格的三階段審核流程。題目來源于高難度非公開化學競賽模擬題、北大化院內部試題及專業文獻改編,并采用嚴謹的防泄漏選擇題設計,避免 LLM 作答時依賴自身記憶或從選項逆推取巧。
化學學科的學習和研究需要使用多樣的圖像,例如分子結構、晶體結構、光譜等,表達豐富的信息。針對化學的多模態特性,SUPERChem 同步提供了圖文交錯與純文本兩個版本的對齊數據集。這一設計不僅能深入評估 LLM 的跨模態化學推理能力,還為系統探究視覺信息對推理過程的影響提供了基礎。
目前,SUPERChem 先期發布500 道專家級精選題目,覆蓋結構與性質、化學反應與合成、化學原理與計算、實驗設計與分析四大化學核心領域。為了細粒度地評估 LLM 的思考過程, SUPERChem 創新性地引入推理路徑一致性( Reasoning Path Fidelity, RPF )指標。研究團隊為每道題目撰寫了包含關鍵檢查點( Checkpoints )的詳細解析,通過自動化評估 LLM 生成的思維鏈與解析的一致性,從而有效區分模型是真正“理解”化學原理,還是僅憑啟發式猜測偶然答對。
——評測結果——
1. 前沿模型接近低年級本科生水平,不同模型推理一致性存在差異
評測結果顯示,SUPERChem 具有較高的題目難度和區分度。在北京大學化學專業低年級本科生的閉卷測試中,人類基線準確率為 40.3%。
表1. 前沿模型在SUPERChem上的表現

在參與評測的前沿模型中,表現最佳的 GPT-5 (High) 準確率達到 38.5%,Gemini-2.5-Pro 以 37.9% 緊隨其后,開源模型 DeepSeek-V3.1-Think 也取得了 37.3% 的成績。這表明以上模型的化學推理能力僅與化學專業低年級本科生水平相當,尚未展現出超越人類基礎專業認知的優勢。

圖3. 前沿模型的正確率與 RPF 關系
分析 RPF 指標可見,不同模型的推理過程質量存在明顯差異。Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準確率的同時,其推理過程也較好地符合專家邏輯;而 DeepSeek-V3.1-Think 雖然準確率相近,但其 RPF 得分相對較低,反映其更傾向通過非標準的啟發式路徑得出結論。
2. 多模態信息的“雙刃劍”效應

圖4:輸入模態對不同模型的影響
為探究輸入模態對模型表現的影響,研究團隊進一步分析了必須依賴多模態輸入的題目子集的測試結果。視覺信息對不同模型的影響方向與程度不一。對于如 Gemini-2.5-Pro 的強推理能力模型,圖像輸入可帶來準確率的提升;而隨著推理能力的減弱,如 GPT-4o 等模型,圖像信息反而成為干擾,導致準確率下降。這為大模型在科學領域的應用提供了參考:在使用不同能力的模型時,需要選擇合適的輸入模態。
3. 推理斷點分析:模型倒在了哪一步?
為了進一步探究 LLM 推理失敗的深層原因,研究團隊對題目解析中的關鍵檢查點進行了細粒度能力分類,并進行了推理斷點分析( First Breakpoint Analysis )。結果表明,前沿模型的推理鏈條并非斷裂于后續的復雜步驟,而是集中于產物結構預測( 2.4 )、反應機理/中間體識別( 2.2 )、構效關系分析( 1.7 )等需要高階化學推理能力的環節上。這反映出當前模型雖具備較強的計算與公式推導能力,但在涉及反應性與分子結構理解的化學核心任務上仍存在明顯短板。

圖5. 推理斷點所屬化學能力分布
——總結——
綜上所述,SUPERChem 為系統評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結果指出,當前前沿模型的化學能力仍處于基礎水平,在涉及高階化學推理能力的任務上存在明顯局限,為后續模型的針對性優化提供了明確方向。
——團隊介紹——
SUPERChem 項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、和林思宇同學領銜完成。近百位北京大學化學專業的博士生與高年級本科生參與了 SUPERChem 題庫的構建與審核,其中包括多位國際化學奧林匹克( IChO )獲獎選手與和中國化學奧林匹克( CChO )決賽獲獎選手。174位北京大學化學專業低年級本科生參與了人類基線測試。
SUPERChem 項目在北京大學化學與分子工程學院裴堅老師、高珍老師,計算中心馬皓老師,以及計算機學院楊仝老師的指導下開展。項目獲得了北京大學計算中心與高性能計算平臺的計算資源支持,來自 Chemy、好未來、質心教育等教育培訓機構和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材,以及高楊老師、龍汀汀老師的專業支持。
項目資源
論文:https://arxiv.org/abs/2512.01274
數據集:https://huggingface.co/datasets/ZehuaZhao/SUPERChem
平臺網站:https://superchem.pku.edu.cn/
聲明:化學加刊發或者轉載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn