欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<menu id="ugnsi"></menu>

<ruby id="ugnsi"><strong id="ugnsi"></strong></ruby>

全球首個全開源科學文獻綜述AI登Nature：引文準確率媲美人類專家

02-06 06:15

2月4日，Nature雜志刊載了華盛頓大學與艾倫人工智能研究所聯(lián)合研發(fā)的科研成果——OpenScholar。這是全球首款專為科學研究打造的全開源檢索增強生成（RAG）語言模型，具備精準檢索、規(guī)避幻覺、生成高質量引用式回答的能力。

OpenScholar的引文準確率與人類專家不相上下，盡管仍需后續(xù)優(yōu)化，但該工具有望助力科學家應對復雜且日益繁重的科學文獻綜述工作。

論文鏈接：https://www.nature.com/articles/s41586-025-10072-4

雖說大語言模型（LLM）在諸多領域表現(xiàn)亮眼，可在科研輔助任務中卻面臨嚴峻挑戰(zhàn)：科學文獻總量增長迅猛，模型難以跟進最新進展，還常出現(xiàn)嚴重的“幻覺”問題。實驗數(shù)據(jù)表明，GPT-4o引用科學文獻時，錯誤引用比例高達78%至90%。

OpenScholar整合了4500萬篇開放獲取論文與獨特的自反饋機制，成功實現(xiàn)精準文獻檢索和準確引用生成，有效解決了現(xiàn)有模型在科學知識合成中的準確性與可信度難題。

首個全開源的科學文獻綜述AI系統(tǒng)

OpenScholar是專為科學研究任務設計的檢索增強語言模型，能從4500萬篇開放獲取論文中識別相關段落，合成帶引用支持的內容來解答科學查詢。

OpenScholar的出色性能源于三大核心技術創(chuàng)新：

1.專屬數(shù)據(jù)庫（OSDS）：OpenScholar擁有專屬知識庫OSDS，構建了完全開放且實時更新的語料庫，涵蓋4500萬篇開放獲取科學論文和2.36億個段落嵌入向量。龐大的數(shù)據(jù)規(guī)模為訓練和推理提供了可復現(xiàn)基礎，保障了檢索的全面性與時效性。

2.自適應檢索：為在海量文獻中精準定位信息，系統(tǒng)采用專門訓練的檢索器，超越簡單關鍵詞匹配，能依據(jù)查詢語義深度，精準識別提取最相關文獻段落，為后續(xù)生成提供高質量上下文。

3.自反饋機制：這是OpenScholar的關鍵技術創(chuàng)新。模型引入“自我反饋”推理循環(huán)，生成初步回答后，會檢查自身產(chǎn)出的事實性、覆蓋率和引用準確性，并據(jù)此迭代優(yōu)化，大幅提升最終回答質量。

圖 | OpenScholar整體架構。該系統(tǒng)包含專用數(shù)據(jù)存儲、檢索器和語言模型，通過檢索過程中的自反饋推理迭代優(yōu)化響應。

性能評估：全面超越現(xiàn)有系統(tǒng)

以往文獻合成評估多聚焦短文本輸出、多項選擇或特定領域推理任務。為此，研究團隊推出ScholarQABench——首個大規(guī)模、多領域開放式科學文獻綜合評測基準，真實模擬科研前沿挑戰(zhàn)：含2967個專家撰寫查詢和208個長篇答案，覆蓋計算機科學、物理學、神經(jīng)科學和生物醫(yī)學領域，要求基于大量論文最新文獻生成長篇回答。

圖 | ScholarQABench概覽。該測試含2200道專家撰寫的跨學科科學問題，研究團隊開發(fā)了自動與人工評估方案。

在這一嚴謹新基準測試中，OpenScholar取得以下關鍵結果：

小規(guī)模輕量模型OpenScholar-8B，綜合正確率超GPT-4o 6.1%，也超專用系統(tǒng)PaperQA2 5.5%，實現(xiàn)性能全面領先。

引用準確性方面，OpenScholar不僅達人類專家水平，還展現(xiàn)系統(tǒng)性優(yōu)勢。分析顯示，人類撰寫答案在評分標準評估中比無檢索GPT-4o高9.6分，而OpenScholar-8B表現(xiàn)僅略低于人類專家2.9分。

圖 | 專家撰寫回答統(tǒng)計。

人類專家評估中，專家明顯更青睞OpenScholar生成的答案。具體而言，OpenScholar使用團隊訓練的80億參數(shù)模型和GPT-4o時，分別以51%和70%勝率擊敗人工生成答案，而未經(jīng)增強的原始GPT-4o勝率僅31%，低于人類專家基線。

圖 | 自動與人工評估結果：基于ScholarQABench計算機科學子集（Scholar-CS，100個問題）的實驗數(shù)據(jù)顯示，使用團隊訓練的8B模型或GPT-4o的OpenScholar系統(tǒng)表現(xiàn)顯著優(yōu)于其他系統(tǒng)，人工評估中超50%案例優(yōu)于專家。本次人工評估由16位博士專家對Scholar-Multi的108個問題進行。

除性能卓越外，OpenScholar在設計上注重實用性。其輕量級專用檢索器相比依賴龐大通用模型檢索的方案，大幅降低系統(tǒng)運行與計算成本，讓高質量、可信賴的文獻綜述輔助能更可持續(xù)、廣泛地應用。

局限性與未來展望

盡管OpenScholar取得突破性進展，當前評測框架與系統(tǒng)仍存在局限性。

ScholarQABench主要關注計算機科學、生物醫(yī)學和物理學，未涵蓋社會科學、工程學等重要學科，研究發(fā)現(xiàn)可能無法完全推廣到其他領域。因專家標注成本高、耗時長，人工標注評估集規(guī)模小，可能引入方差和注釋者專業(yè)偏差。且ScholarQABench是靜態(tài)公開基準，未來存在數(shù)據(jù)污染風險，增加訓練或搜索中暴露的可能性。

某些復雜查詢中，OpenScholar仍無法保證始終檢索到最具代表性或最新的相關論文。80億參數(shù)的OpenScholar-8B模型雖表現(xiàn)優(yōu)異，但指令遵循和科學知識理解能力有限，可能導致輸出存在事實性偏差。OpenScholar-GPT-4o版本依賴GPT-4o專有API，底層模型更新后實驗結果可能難以完全復現(xiàn)，給研究可重復性帶來挑戰(zhàn)。此外，當前系統(tǒng)僅使用開放獲取論文，如何合理合法整合大量受版權保護的學術文獻，仍是亟待解決的問題。

目前，研究團隊已開源OpenScholar的核心資源，包括代碼、數(shù)據(jù)、模型檢查點、數(shù)據(jù)存儲和ScholarQABench，以支持和加速未來研究工作。

在此基礎上，未來工作將整合平臺用戶反饋，持續(xù)優(yōu)化檢索質量、引用準確性及整體可用性。同時，團隊計劃進一步拓展應用邊界，將支持范圍延伸至更多科學領域及多語言場景，并積極尋求與學術出版機構合作，探索兼顧知識產(chǎn)權與開放獲取的合規(guī)數(shù)據(jù)使用機制。

本文來自微信公眾號“學術頭條”（ID：SciTouTiao），作者：王躍然，36氪經(jīng)授權發(fā)布。

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

福鹿家借蜜雪東風一年拓店1500家平價鮮啤模式能否復制雪王奇跡

月薪三萬仍難住汕頭亞朵，春節(jié)酒店價格瘋漲背后的深層原因

歌聲里的烏蘭察布：以音樂鋪就文旅融合新路徑

頭部飲品品牌扎堆進駐地鐵站半小時訂單破200單引熱議

縣域寶媽拼購北極甜蝦：拼多多上全球海鮮商家的年貨爭奪戰(zhàn)

項目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<rt id="94nf8"><dd id="94nf8"></dd></rt>

<li id="94nf8"></li>

<ul id="94nf8"></ul>