欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

從對話智能到?jīng)Q策支撐:百川M3引領醫(yī)療大模型邁入新階段

01-17 06:45
AI醫(yī)療迎來關鍵轉(zhuǎn)折點。

1月13日,百川智能發(fā)布并開源新一代醫(yī)療增強大模型Baichuan-M3。該模型在OpenAI主導的權(quán)威醫(yī)療評測集HealthBench及其困難子集上斬獲全球最高綜合成績,顯著超越GPT-5.2;在醫(yī)療幻覺率純模型評估中達到當前最低水平;在聚焦全流程臨床能力的SCAN-bench評測里,M3在病史采集、輔助檢查和診斷等多個核心指標上均位列第一,展現(xiàn)出綜合領先的醫(yī)療推理與問診能力。


此外,M3首次具備原生的“端到端”嚴肅問診能力。它能像醫(yī)生般主動追問、逐層深入,挖掘關鍵病史與風險信號,進而基于完整信息開展深度醫(yī)學推理。評測顯示,其問診能力明顯高于真人醫(yī)生的平均水平。


這場發(fā)布的意義不止于技術榜單上的超越。更重要的是,Baichuan-M3將醫(yī)療大模型推向新高度:它不再局限于對話和表達層面,而是開始真正具備支撐完整診療流程的能力,能夠參與醫(yī)療決策本身。正因如此,其意義遠超其他模型,大模型的技術進步終于能完整轉(zhuǎn)化為醫(yī)療健康領域可規(guī)?;涞氐默F(xiàn)實價值。


“幫助患者產(chǎn)生輔助決策的價值就是有意義的。”百川智能創(chuàng)始人&CEO王小川在發(fā)布會上表示。



在醫(yī)療這個對安全性和責任要求極高的場景中,這樣的變化并非偶然。它意味著有人選擇了一條更漫長、更艱難且不那么討巧的路徑,將模型能力從展示智能逐步推向承載決策。


百川為何能實現(xiàn)這一突破?為何此次突破出現(xiàn)在醫(yī)療領域,而非代碼、搜索或智能體等更熱門賽道?又為何在當下,這些長期積累的技術選擇與工程路線能同時收斂于清晰結(jié)果?


醫(yī)療大模型評價標準迎來重構(gòu)


幾乎從人工智能誕生起,醫(yī)療行業(yè)就被視為最有可能且最值得被AI改造的行業(yè)之一。


在HealthBench出現(xiàn)前,醫(yī)療相關AI能力幾乎無法比較。各家模型都可宣稱懂醫(yī)學、能做醫(yī)療問答,但缺乏統(tǒng)一評價體系,難以橫向?qū)Ρ取?/p>


今年5月,OpenAI推出HealthBench,這套標準匯集大量基于真實臨床場景設計的多輪對話樣本,讓醫(yī)療能力得以量化評估,有了公共標準。因此在相當長一段時間里,它幾乎等同于醫(yī)療大模型的最高標準,也成為各家模型展示醫(yī)療能力的共同參照系。


正因如此,在相當長一段時間里,誰在HealthBench上得分更高,誰就更懂醫(yī)療,幾乎成了行業(yè)共識。這并非因為HealthBench覆蓋了醫(yī)療的全部復雜性,而是因為在它之前,行業(yè)連標準本身都沒有。


從某一時刻起,行業(yè)趨勢發(fā)生轉(zhuǎn)變。去年年中至今,當國內(nèi)阿福、小荷醫(yī)生等醫(yī)療助手紛紛上線,OpenAI推出ChatGPT Health,Anthropic推出Claude for Healthcare,醫(yī)療不再只是測試模型智能程度的benchmark,而成為大模型廠商必須正面投入的產(chǎn)品方向;模型也要直接面對回答能否作為決策依據(jù)的問題。


這不再只是排名問題。


也正是在這個階段,HealthBench的局限性開始顯現(xiàn)。它依然重要,但已不夠全面。它能證明模型是否具備醫(yī)學知識和專業(yè)表達能力,卻無法回答更核心的問題:模型是否具備進入真實醫(yī)療決策流程的資格。


臨床決策從來不是從標準化問題開始,而是從高度不完整、甚至混亂的信息開始。患者往往說不清重點,癥狀相互疊加,不同風險混雜,真正的難點不在于“怎么給答案”,而在于“怎么問問題”。醫(yī)生的專業(yè)能力,很大一部分體現(xiàn)在對信息優(yōu)先級的判斷上:哪些是必須馬上排除的高危信號,哪些可以暫緩;哪些信息缺失就無法下結(jié)論,哪些只是補充參考。


也正是在這一點上,百川做出了與主流路線明顯不同的選擇。一方面,它沒有放棄在HealthBench體系中的競爭,仍持續(xù)追求在現(xiàn)有權(quán)威標準下做到最優(yōu);另一方面,它推出SCAN-bench,試圖彌補對完整臨床流程建模和評測這一此前長期被忽視的維度。


圍繞SCAN原則,百川借鑒醫(yī)學教育中常用的OSCE方法,聯(lián)合150多位一線醫(yī)生搭建SCAN-bench評測體系。該體系以真實臨床經(jīng)驗為“標準答案”,將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段,通過動態(tài)、多輪方式考核,完整模擬醫(yī)生從接診到確診的全過程。相比于HealthBench,SCAN-bench是更全流程端到端的動態(tài)評測新范式。


也就是說,當行業(yè)還在比拼誰更會“答”時,百川已將關注點轉(zhuǎn)向更底層的問題:模型能不能像醫(yī)生一樣“問”?


這正是M3發(fā)布真正特殊之處:在能力結(jié)構(gòu)上形成閉環(huán),既能推理,又不虛構(gòu),還知道如何問出關鍵信息。會推理解決“能不能判斷”,不虛構(gòu)解決“能不能信”,會問診解決“有沒有資格進入決策流程”。


當這三者同時具備時,醫(yī)療大模型才算從會說話的智能系統(tǒng),走向可被托付部分醫(yī)療決策責任的系統(tǒng)。


從結(jié)果來看,M3仍是一款多項第一的模型。它在HealthBench上登頂,意味著在OpenAI親自定義的醫(yī)療能力標準體系下實現(xiàn)全面超越;而在更強調(diào)復雜臨床決策能力的HealthBench Hard子集中,M3以44.4分奪冠,首次系統(tǒng)性超過GPT-5.2,這一成績更具說服力,因為它驗證的不只是回答是否專業(yè),更是模型在高度不確定、高推理難度場景中的穩(wěn)定性與可靠性。



同時,M3在無工具條件下實現(xiàn)全球最低幻覺率,意味著安全性被內(nèi)化為模型自身能力,而非依賴外部檢索、規(guī)則約束或工程補丁來彌補。更關鍵的是,在以完整臨床流程為目標的SCAN-bench評測中,M3同樣取得第一,尤其在最核心的問診環(huán)節(jié)顯著超過GPT系列模型和人類醫(yī)生基線水平,這表明模型真正補齊了臨床信息獲取這一長期被忽視、卻決定醫(yī)療決策上限的核心能力。


AI醫(yī)療的真正分水嶺


如果說過去兩年行業(yè)更多是讓模型“像”醫(yī)生一樣說話,那M3此次給出的判斷是:僅有表達還不夠,必須具備醫(yī)生的思維結(jié)構(gòu)。


大量“AI醫(yī)生”仍停留在角色扮演層面,對話流暢、語氣專業(yè),但提問更多是讓對話顯得完整,而非為臨床決策收集關鍵信息。模型往往順著患者描述展開對話,卻很少像真實醫(yī)生那樣先做風險分層、排查危險信號、圍繞診療路徑反向設計問題。結(jié)果是,對話看似專業(yè),卻不足以支撐嚴肅判斷,最終只能給出“建議盡快就醫(yī)”這樣的安全性結(jié)論。


這正是“會說話”和“會做臨床決策”的本質(zhì)差別,也是百川提出“嚴肅問診”“SCAN原則”的背景。王小川在發(fā)布會上分享:“在醫(yī)療行業(yè),患者往往無法完整表達自己,只知道表面癥狀,所以要去問醫(yī)生,通過問診把過去的病情發(fā)展問清楚。有了足夠數(shù)據(jù)后,才能做好后續(xù)的檢測、診斷和結(jié)論。今天的大模型并不具備這樣的能力。”


百川想做的是將臨床醫(yī)生長期依賴經(jīng)驗完成的工作方式,拆解成可被模型學習、評測和通過強化學習直接優(yōu)化的工程目標。


具體到工程上,百川沒有選擇堆砌功能,而是集中解決三個最底層的問題。


首先是全動態(tài)強化學習系統(tǒng)。


在M2階段,強化學習更多依賴相對靜態(tài)的驗證規(guī)則,模型能力提升到一定程度后,驗證體系本身就成了上限。而在M3中,Verifier被設計成可隨模型能力共同進化的系統(tǒng):模型暴露出新的錯誤模式,驗證器就生成新的約束;舊的、低價值規(guī)則被淘汰,高價值規(guī)則被持續(xù)強化。規(guī)則與模型共同抬高上限,解決了能力后期容易封頂?shù)膯栴}。


第二是SPAR算法。


醫(yī)療問診天然是一條極長的決策鏈路,如果只看最終診斷是否正確,模型根本無法知道問題出在哪里:是病史沒問清,還是檢查建議錯了,或是推理路徑偏了。SPAR通過分步懲罰和相對基準機制,把長鏈條決策拆解為可追責的局部過程,讓模型在有限輪次內(nèi)就能學會把關鍵問題問準、問全,而不是靠拉長對話輪數(shù)。


第三是Fact-aware RL。在醫(yī)療場景中,推理能力越強,模型越容易“肯定自己”;說得越肯定,一旦事實基礎不牢,就越危險。傳統(tǒng)做法往往是靠外部檢索或規(guī)則系統(tǒng)糾偏,而M3把低幻覺直接作為強化學習的優(yōu)化目標,讓事實一致性成為模型自身能力的一部分。同時,通過動態(tài)權(quán)重調(diào)節(jié),避免模型為了少犯錯而退化成少說少錯的保守狀態(tài),使強推理與高可靠能夠同時實現(xiàn)。


這三套設計背后,指向的是同一個目標:能力和安全,強推理和高可靠,不做取舍,百川都要,并且要讓二者成為同一套工程體系里的協(xié)同指標。


這樣一來,AI醫(yī)療才真正跨過了那條分水嶺。


從健康助手到?jīng)Q策支持


當模型能力完成會推理、不虛構(gòu)、會問診的完整閉環(huán)時,百川的重心也必然開始轉(zhuǎn)變:從模型本身的展示,轉(zhuǎn)向能力在真實醫(yī)療場景中的落地。


這也是為什么從外部觀察會發(fā)現(xiàn),百小應近期的產(chǎn)品節(jié)奏明顯加快,多種功能陸續(xù)完善,逐步搭建起可以承接醫(yī)療工作流的系統(tǒng)框架。模型需要的不再是展示窗口,而是一個可以沉淀信息、支持長期使用、對接真實決策鏈條的載體。


這樣一來,百川所堅持的“嚴肅醫(yī)療”與行業(yè)中大量“泛健康”產(chǎn)品之間的差異,開始變得格外清晰。


以阿福、小荷醫(yī)生為代表的產(chǎn)品,更接近健康咨詢、醫(yī)學科普、導診建議和情緒陪伴,它們解決的是信息不對稱和患者就醫(yī)前焦慮的問題。


而百川試圖進入的,是完全不同的鏈路:醫(yī)生可借助它推演問診與診療思路,患者及家屬也可通過該應用更系統(tǒng)地理解診斷、治療、檢查與預后背后的醫(yī)學邏輯。


這是一條高風險、高責任、高價值密度的決策支持路徑:在這里,模型不再只是提供參考信息或情緒安慰,它給出的每一次判斷,都可能影響患者的下一步選擇;它提出的每一個問題,都在決定關鍵信息是否被完整收集;它形成的每一個結(jié)論,都必須具備可復核性,能夠真正被納入醫(yī)療決策流程之中。


根本區(qū)別在于,當行業(yè)里大多數(shù)產(chǎn)品仍停留在幫用戶搜集健康信息層面時,百川選擇了一條更難、更慢但天花板更高的路。


回看百川押注醫(yī)療的時間線,其選擇是一種提前布局的判斷。


在溝通會上,王小川概括了他對醫(yī)療行業(yè)幾個核心痛點的判斷:優(yōu)質(zhì)醫(yī)生資源長期緊缺,醫(yī)療服務在不同地區(qū)與人群之間高度不均衡;在美國有家庭醫(yī)生體系承接基層診療,而在中國,患者更集中地涌向三甲醫(yī)院,優(yōu)質(zhì)醫(yī)療資源被進一步擠壓。正是基于對這些現(xiàn)實矛盾的長期觀察,百川從一開始就把目標放在解決醫(yī)療本身的問題上。


2023年,在大模型產(chǎn)業(yè)最火熱的階段,百川并沒有選擇優(yōu)先切入代碼、搜索、內(nèi)容創(chuàng)作這些更容易驗證商業(yè)化價值的賽道,而是明確把醫(yī)療作為最核心方向。這在當時并不討巧:醫(yī)療數(shù)據(jù)敏感、場景復雜、責任邊界模糊、產(chǎn)品落地周期長,很難形成快速反饋?!爱敃r也受到行業(yè)很多人的質(zhì)疑?!蓖跣〈ǜ嬖V我們。


2026年開年,OpenAI發(fā)布ChatGPT Health,Anthropic也正式推出Claude for Healthcare,國際頭部模型廠商開始集體進入醫(yī)療領域,全球范圍內(nèi)所有公司都意識到醫(yī)療才是大模型必爭之地。


在這場競速中,作為國內(nèi)唯一專注醫(yī)療的大模型企業(yè),百川持續(xù)突破低幻覺率、端到端問診和復雜臨床推理等核心能力,在醫(yī)療大模型底座上完成了代際領先,已從“跟隨者”躍遷為行業(yè)“引領者”與新范式的“定義者”,正以硬核實力扛起中國AI醫(yī)療發(fā)展的旗幟。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com