全球首個全開源科學文獻綜述AI登Nature:引文準確率媲美人類專家
OpenScholar的引文準確率與人類專家不相上下,盡管仍需后續(xù)優(yōu)化,但該工具有望助力科學家應對復雜且日益繁重的科學文獻綜述工作。

論文鏈接:https://www.nature.com/articles/s41586-025-10072-4
雖說大語言模型(LLM)在諸多領域表現亮眼,可在科研輔助任務中卻面臨嚴峻挑戰(zhàn):科學文獻總量增長迅猛,模型難以跟進最新進展,還常出現嚴重的“幻覺”問題。實驗數據表明,GPT-4o引用科學文獻時,錯誤引用比例高達78%至90%。
OpenScholar整合了4500萬篇開放獲取論文與獨特的自反饋機制,成功實現精準文獻檢索和準確引用生成,有效解決了現有模型在科學知識合成中的準確性與可信度難題。
首個全開源的科學文獻綜述AI系統
OpenScholar是專為科學研究任務設計的檢索增強語言模型,能從4500萬篇開放獲取論文中識別相關段落,合成帶引用支持的內容來解答科學查詢。
OpenScholar的出色性能源于三大核心技術創(chuàng)新:
1.專屬數據庫(OSDS):OpenScholar擁有專屬知識庫OSDS,構建了完全開放且實時更新的語料庫,涵蓋4500萬篇開放獲取科學論文和2.36億個段落嵌入向量。龐大的數據規(guī)模為訓練和推理提供了可復現基礎,保障了檢索的全面性與時效性。
2.自適應檢索:為在海量文獻中精準定位信息,系統采用專門訓練的檢索器,超越簡單關鍵詞匹配,能依據查詢語義深度,精準識別提取最相關文獻段落,為后續(xù)生成提供高質量上下文。
3.自反饋機制:這是OpenScholar的關鍵技術創(chuàng)新。模型引入“自我反饋”推理循環(huán),生成初步回答后,會檢查自身產出的事實性、覆蓋率和引用準確性,并據此迭代優(yōu)化,大幅提升最終回答質量。

圖 | OpenScholar整體架構。該系統包含專用數據存儲、檢索器和語言模型,通過檢索過程中的自反饋推理迭代優(yōu)化響應。
性能評估:全面超越現有系統
以往文獻合成評估多聚焦短文本輸出、多項選擇或特定領域推理任務。為此,研究團隊推出ScholarQABench——首個大規(guī)模、多領域開放式科學文獻綜合評測基準,真實模擬科研前沿挑戰(zhàn):含2967個專家撰寫查詢和208個長篇答案,覆蓋計算機科學、物理學、神經科學和生物醫(yī)學領域,要求基于大量論文最新文獻生成長篇回答。

圖 | ScholarQABench概覽。該測試含2200道專家撰寫的跨學科科學問題,研究團隊開發(fā)了自動與人工評估方案。
在這一嚴謹新基準測試中,OpenScholar取得以下關鍵結果:
小規(guī)模輕量模型OpenScholar-8B,綜合正確率超GPT-4o 6.1%,也超專用系統PaperQA2 5.5%,實現性能全面領先。
引用準確性方面,OpenScholar不僅達人類專家水平,還展現系統性優(yōu)勢。分析顯示,人類撰寫答案在評分標準評估中比無檢索GPT-4o高9.6分,而OpenScholar-8B表現僅略低于人類專家2.9分。

圖 | 專家撰寫回答統計。
人類專家評估中,專家明顯更青睞OpenScholar生成的答案。具體而言,OpenScholar使用團隊訓練的80億參數模型和GPT-4o時,分別以51%和70%勝率擊敗人工生成答案,而未經增強的原始GPT-4o勝率僅31%,低于人類專家基線。

圖 | 自動與人工評估結果:基于ScholarQABench計算機科學子集(Scholar-CS,100個問題)的實驗數據顯示,使用團隊訓練的8B模型或GPT-4o的OpenScholar系統表現顯著優(yōu)于其他系統,人工評估中超50%案例優(yōu)于專家。本次人工評估由16位博士專家對Scholar-Multi的108個問題進行。
除性能卓越外,OpenScholar在設計上注重實用性。其輕量級專用檢索器相比依賴龐大通用模型檢索的方案,大幅降低系統運行與計算成本,讓高質量、可信賴的文獻綜述輔助能更可持續(xù)、廣泛地應用。
局限性與未來展望
盡管OpenScholar取得突破性進展,當前評測框架與系統仍存在局限性。
ScholarQABench主要關注計算機科學、生物醫(yī)學和物理學,未涵蓋社會科學、工程學等重要學科,研究發(fā)現可能無法完全推廣到其他領域。因專家標注成本高、耗時長,人工標注評估集規(guī)模小,可能引入方差和注釋者專業(yè)偏差。且ScholarQABench是靜態(tài)公開基準,未來存在數據污染風險,增加訓練或搜索中暴露的可能性。
某些復雜查詢中,OpenScholar仍無法保證始終檢索到最具代表性或最新的相關論文。80億參數的OpenScholar-8B模型雖表現優(yōu)異,但指令遵循和科學知識理解能力有限,可能導致輸出存在事實性偏差。OpenScholar-GPT-4o版本依賴GPT-4o專有API,底層模型更新后實驗結果可能難以完全復現,給研究可重復性帶來挑戰(zhàn)。此外,當前系統僅使用開放獲取論文,如何合理合法整合大量受版權保護的學術文獻,仍是亟待解決的問題。
目前,研究團隊已開源OpenScholar的核心資源,包括代碼、數據、模型檢查點、數據存儲和ScholarQABench,以支持和加速未來研究工作。
在此基礎上,未來工作將整合平臺用戶反饋,持續(xù)優(yōu)化檢索質量、引用準確性及整體可用性。同時,團隊計劃進一步拓展應用邊界,將支持范圍延伸至更多科學領域及多語言場景,并積極尋求與學術出版機構合作,探索兼顧知識產權與開放獲取的合規(guī)數據使用機制。
本文來自微信公眾號“學術頭條”(ID:SciTouTiao),作者:王躍然,36氪經授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




