
時間:所屬分類:學術成果常識瀏覽:1次
近期,北京大學物理學院傳來喜訊,一支以本科生為核心的研究團隊所發表的大模型物理學基準測試 PHYBench 論文,成功被人工智能頂級會議 NeurlPS2025 接收。NeurIPS 作為全球人工智能領域最具影響力的三大頂級會議之一,2025 年度論文投稿數量接近 30,000 篇,然而近年來其錄取率不足 25%,競爭態勢極為激烈,在此背景下,北大團隊的入選顯得尤為難得。
在人工智能技術日新月異的當下,大模型在專業領域的能力逐漸向人類水平靠攏。在此情形下,如何全面且精準地評估 AI 模型的科學能力與推理能力,成為了亟待解決的關鍵問題。基于此,北京大學物理學院的團隊勇擔學科責任,構建了專門用于測試物理推理能力的基準測試 ——PHYBench。
PHYBench 覆蓋了力學、熱學、光學、電磁學以及近代物理這五大物理領域,精心挑選了 500 余道題目,這些題目均要求模型進行多步推理解答。為保障每一道題評測的公平性與科學性,團隊采用了模型閉環測試與人類解題驗證相結合的方式。測試結果顯示,在物理基準測試中,模型的得分與模型綜合能力緊密相關,而當前的大模型在物理推理方面存在明顯短板。在眾多模型中,表現最佳的模型準確率僅為 45.8%,與之形成鮮明對比的是,人類專家的準確率達到了 61.9%,這清晰地表明 AI 在物理學深度推理方面與人類專家仍存在顯著差距。

圖例中的 New Models 表示論文發表(5 月 18 日)之后推出的模型
PHYBench 論文一經發表便備受關注,在 alphaXiv 上連續兩周位居熱門論文榜單榜首,閱讀量累計超過 15 萬次;在 Hugging Face 上,該論文月下載量超過 4000 次,榮登新興數據集榜單第三名,并且多次被同賽道的其他研究引用。目前,團隊已將部分試題和評測代碼開源,為相關社區的進一步研究筑牢基礎。團隊開發的 “表達式編輯距離 (EED)” 算法,已被上海人工智能實驗室的工作 CMPhysBench 復用。可以說,PHYBench 為 AI 模型的物理推理能力提供了系統的評估基準,為 AI 與基礎科學的深度融合明確了發展方向。
PHYBench 論文的作者陣容強大,包括仇是、郭紹陽、宋卓洋、孫韞博、蔡則宇、衛家燊、羅天宇等 49 位同學,其中部分同學憑借此成果獲得了進入人工智能頭部企業實習的寶貴機會。論文的指導老師匯聚了北京大學物理學院理論物理研究所的朱華星教授和曹慶宏教授,北京大學智能學院的張牧涵助理教授、楊耀東助理教授,以及北京計算科學研究中心的羅民興院士。
此次研究成果,是北京大學物理學院在人工智能時代高層次人才培養改革的一次重要嘗試,也是教育部《物理學人工智能教育專用大模型》建設項目的首個重要成果。此外,本項目還得到了北京大學物理學院學生會的大力協助,以及北京大學教務部本科教改項目、國家自然科學基金、教育部物理學 101 計劃和亞洲青年科學家基金的支持。