欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<span id="ogb93"></span>

從對話智能到?jīng)Q策支撐：百川M3引領醫(yī)療大模型邁入新階段

01-17 06:45

AI醫(yī)療迎來關鍵轉(zhuǎn)折點。

1月13日，百川智能發(fā)布并開源新一代醫(yī)療增強大模型Baichuan-M3。該模型在OpenAI主導的權(quán)威醫(yī)療評測集HealthBench及其困難子集上斬獲全球最高綜合成績，顯著超越GPT-5.2；在醫(yī)療幻覺率純模型評估中達到當前最低水平；在聚焦全流程臨床能力的SCAN-bench評測里，M3在病史采集、輔助檢查和診斷等多個核心指標上均位列第一，展現(xiàn)出綜合領先的醫(yī)療推理與問診能力。

此外，M3首次具備原生的“端到端”嚴肅問診能力。它能像醫(yī)生般主動追問、逐層深入，挖掘關鍵病史與風險信號，進而基于完整信息開展深度醫(yī)學推理。評測顯示，其問診能力明顯高于真人醫(yī)生的平均水平。

這場發(fā)布的意義不止于技術榜單上的超越。更重要的是，Baichuan-M3將醫(yī)療大模型推向新高度：它不再局限于對話和表達層面，而是開始真正具備支撐完整診療流程的能力，能夠參與醫(yī)療決策本身。正因如此，其意義遠超其他模型，大模型的技術進步終于能完整轉(zhuǎn)化為醫(yī)療健康領域可規(guī)?；涞氐默F(xiàn)實價值。

“幫助患者產(chǎn)生輔助決策的價值就是有意義的。”百川智能創(chuàng)始人&CEO王小川在發(fā)布會上表示。

在醫(yī)療這個對安全性和責任要求極高的場景中，這樣的變化并非偶然。它意味著有人選擇了一條更漫長、更艱難且不那么討巧的路徑，將模型能力從展示智能逐步推向承載決策。

百川為何能實現(xiàn)這一突破？為何此次突破出現(xiàn)在醫(yī)療領域，而非代碼、搜索或智能體等更熱門賽道？又為何在當下，這些長期積累的技術選擇與工程路線能同時收斂于清晰結(jié)果？

醫(yī)療大模型評價標準迎來重構(gòu)

幾乎從人工智能誕生起，醫(yī)療行業(yè)就被視為最有可能且最值得被AI改造的行業(yè)之一。

在HealthBench出現(xiàn)前，醫(yī)療相關AI能力幾乎無法比較。各家模型都可宣稱懂醫(yī)學、能做醫(yī)療問答，但缺乏統(tǒng)一評價體系，難以橫向?qū)Ρ取?/p>

今年5月，OpenAI推出HealthBench，這套標準匯集大量基于真實臨床場景設計的多輪對話樣本，讓醫(yī)療能力得以量化評估，有了公共標準。因此在相當長一段時間里，它幾乎等同于醫(yī)療大模型的最高標準，也成為各家模型展示醫(yī)療能力的共同參照系。

正因如此，在相當長一段時間里，誰在HealthBench上得分更高，誰就更懂醫(yī)療，幾乎成了行業(yè)共識。這并非因為HealthBench覆蓋了醫(yī)療的全部復雜性，而是因為在它之前，行業(yè)連標準本身都沒有。

從某一時刻起，行業(yè)趨勢發(fā)生轉(zhuǎn)變。去年年中至今，當國內(nèi)阿福、小荷醫(yī)生等醫(yī)療助手紛紛上線，OpenAI推出ChatGPT Health，Anthropic推出Claude for Healthcare，醫(yī)療不再只是測試模型智能程度的benchmark，而成為大模型廠商必須正面投入的產(chǎn)品方向；模型也要直接面對回答能否作為決策依據(jù)的問題。

這不再只是排名問題。

也正是在這個階段，HealthBench的局限性開始顯現(xiàn)。它依然重要，但已不夠全面。它能證明模型是否具備醫(yī)學知識和專業(yè)表達能力，卻無法回答更核心的問題：模型是否具備進入真實醫(yī)療決策流程的資格。

臨床決策從來不是從標準化問題開始，而是從高度不完整、甚至混亂的信息開始。患者往往說不清重點，癥狀相互疊加，不同風險混雜，真正的難點不在于“怎么給答案”，而在于“怎么問問題”。醫(yī)生的專業(yè)能力，很大一部分體現(xiàn)在對信息優(yōu)先級的判斷上：哪些是必須馬上排除的高危信號，哪些可以暫緩；哪些信息缺失就無法下結(jié)論，哪些只是補充參考。

也正是在這一點上，百川做出了與主流路線明顯不同的選擇。一方面，它沒有放棄在HealthBench體系中的競爭，仍持續(xù)追求在現(xiàn)有權(quán)威標準下做到最優(yōu)；另一方面，它推出SCAN-bench，試圖彌補對完整臨床流程建模和評測這一此前長期被忽視的維度。

圍繞SCAN原則，百川借鑒醫(yī)學教育中常用的OSCE方法，聯(lián)合150多位一線醫(yī)生搭建SCAN-bench評測體系。該體系以真實臨床經(jīng)驗為“標準答案”，將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段，通過動態(tài)、多輪方式考核，完整模擬醫(yī)生從接診到確診的全過程。相比于HealthBench，SCAN-bench是更全流程端到端的動態(tài)評測新范式。

也就是說，當行業(yè)還在比拼誰更會“答”時，百川已將關注點轉(zhuǎn)向更底層的問題：模型能不能像醫(yī)生一樣“問”？

這正是M3發(fā)布真正特殊之處：在能力結(jié)構(gòu)上形成閉環(huán)，既能推理，又不虛構(gòu)，還知道如何問出關鍵信息。會推理解決“能不能判斷”，不虛構(gòu)解決“能不能信”，會問診解決“有沒有資格進入決策流程”。

當這三者同時具備時，醫(yī)療大模型才算從會說話的智能系統(tǒng)，走向可被托付部分醫(yī)療決策責任的系統(tǒng)。

從結(jié)果來看，M3仍是一款多項第一的模型。它在HealthBench上登頂，意味著在OpenAI親自定義的醫(yī)療能力標準體系下實現(xiàn)全面超越；而在更強調(diào)復雜臨床決策能力的HealthBench Hard子集中，M3以44.4分奪冠，首次系統(tǒng)性超過GPT-5.2，這一成績更具說服力，因為它驗證的不只是回答是否專業(yè)，更是模型在高度不確定、高推理難度場景中的穩(wěn)定性與可靠性。

同時，M3在無工具條件下實現(xiàn)全球最低幻覺率，意味著安全性被內(nèi)化為模型自身能力，而非依賴外部檢索、規(guī)則約束或工程補丁來彌補。更關鍵的是，在以完整臨床流程為目標的SCAN-bench評測中，M3同樣取得第一，尤其在最核心的問診環(huán)節(jié)顯著超過GPT系列模型和人類醫(yī)生基線水平，這表明模型真正補齊了臨床信息獲取這一長期被忽視、卻決定醫(yī)療決策上限的核心能力。

AI醫(yī)療的真正分水嶺

如果說過去兩年行業(yè)更多是讓模型“像”醫(yī)生一樣說話，那M3此次給出的判斷是：僅有表達還不夠，必須具備醫(yī)生的思維結(jié)構(gòu)。

大量“AI醫(yī)生”仍停留在角色扮演層面，對話流暢、語氣專業(yè)，但提問更多是讓對話顯得完整，而非為臨床決策收集關鍵信息。模型往往順著患者描述展開對話，卻很少像真實醫(yī)生那樣先做風險分層、排查危險信號、圍繞診療路徑反向設計問題。結(jié)果是，對話看似專業(yè)，卻不足以支撐嚴肅判斷，最終只能給出“建議盡快就醫(yī)”這樣的安全性結(jié)論。

這正是“會說話”和“會做臨床決策”的本質(zhì)差別，也是百川提出“嚴肅問診”“SCAN原則”的背景。王小川在發(fā)布會上分享：“在醫(yī)療行業(yè)，患者往往無法完整表達自己，只知道表面癥狀，所以要去問醫(yī)生，通過問診把過去的病情發(fā)展問清楚。有了足夠數(shù)據(jù)后，才能做好后續(xù)的檢測、診斷和結(jié)論。今天的大模型并不具備這樣的能力。”

百川想做的是將臨床醫(yī)生長期依賴經(jīng)驗完成的工作方式，拆解成可被模型學習、評測和通過強化學習直接優(yōu)化的工程目標。

具體到工程上，百川沒有選擇堆砌功能，而是集中解決三個最底層的問題。

首先是全動態(tài)強化學習系統(tǒng)。

在M2階段，強化學習更多依賴相對靜態(tài)的驗證規(guī)則，模型能力提升到一定程度后，驗證體系本身就成了上限。而在M3中，Verifier被設計成可隨模型能力共同進化的系統(tǒng)：模型暴露出新的錯誤模式，驗證器就生成新的約束；舊的、低價值規(guī)則被淘汰，高價值規(guī)則被持續(xù)強化。規(guī)則與模型共同抬高上限，解決了能力后期容易封頂?shù)膯栴}。

第二是SPAR算法。

醫(yī)療問診天然是一條極長的決策鏈路，如果只看最終診斷是否正確，模型根本無法知道問題出在哪里：是病史沒問清，還是檢查建議錯了，或是推理路徑偏了。SPAR通過分步懲罰和相對基準機制，把長鏈條決策拆解為可追責的局部過程，讓模型在有限輪次內(nèi)就能學會把關鍵問題問準、問全，而不是靠拉長對話輪數(shù)。

第三是Fact-aware RL。在醫(yī)療場景中，推理能力越強，模型越容易“肯定自己”；說得越肯定，一旦事實基礎不牢，就越危險。傳統(tǒng)做法往往是靠外部檢索或規(guī)則系統(tǒng)糾偏，而M3把低幻覺直接作為強化學習的優(yōu)化目標，讓事實一致性成為模型自身能力的一部分。同時，通過動態(tài)權(quán)重調(diào)節(jié)，避免模型為了少犯錯而退化成少說少錯的保守狀態(tài)，使強推理與高可靠能夠同時實現(xiàn)。

這三套設計背后，指向的是同一個目標：能力和安全，強推理和高可靠，不做取舍，百川都要，并且要讓二者成為同一套工程體系里的協(xié)同指標。

這樣一來，AI醫(yī)療才真正跨過了那條分水嶺。

從健康助手到?jīng)Q策支持

當模型能力完成會推理、不虛構(gòu)、會問診的完整閉環(huán)時，百川的重心也必然開始轉(zhuǎn)變：從模型本身的展示，轉(zhuǎn)向能力在真實醫(yī)療場景中的落地。

這也是為什么從外部觀察會發(fā)現(xiàn)，百小應近期的產(chǎn)品節(jié)奏明顯加快，多種功能陸續(xù)完善，逐步搭建起可以承接醫(yī)療工作流的系統(tǒng)框架。模型需要的不再是展示窗口，而是一個可以沉淀信息、支持長期使用、對接真實決策鏈條的載體。

這樣一來，百川所堅持的“嚴肅醫(yī)療”與行業(yè)中大量“泛健康”產(chǎn)品之間的差異，開始變得格外清晰。

以阿福、小荷醫(yī)生為代表的產(chǎn)品，更接近健康咨詢、醫(yī)學科普、導診建議和情緒陪伴，它們解決的是信息不對稱和患者就醫(yī)前焦慮的問題。

而百川試圖進入的，是完全不同的鏈路：醫(yī)生可借助它推演問診與診療思路，患者及家屬也可通過該應用更系統(tǒng)地理解診斷、治療、檢查與預后背后的醫(yī)學邏輯。

這是一條高風險、高責任、高價值密度的決策支持路徑：在這里，模型不再只是提供參考信息或情緒安慰，它給出的每一次判斷，都可能影響患者的下一步選擇；它提出的每一個問題，都在決定關鍵信息是否被完整收集；它形成的每一個結(jié)論，都必須具備可復核性，能夠真正被納入醫(yī)療決策流程之中。

根本區(qū)別在于，當行業(yè)里大多數(shù)產(chǎn)品仍停留在幫用戶搜集健康信息層面時，百川選擇了一條更難、更慢但天花板更高的路。

回看百川押注醫(yī)療的時間線，其選擇是一種提前布局的判斷。

在溝通會上，王小川概括了他對醫(yī)療行業(yè)幾個核心痛點的判斷：優(yōu)質(zhì)醫(yī)生資源長期緊缺，醫(yī)療服務在不同地區(qū)與人群之間高度不均衡；在美國有家庭醫(yī)生體系承接基層診療，而在中國，患者更集中地涌向三甲醫(yī)院，優(yōu)質(zhì)醫(yī)療資源被進一步擠壓。正是基于對這些現(xiàn)實矛盾的長期觀察，百川從一開始就把目標放在解決醫(yī)療本身的問題上。

2023年，在大模型產(chǎn)業(yè)最火熱的階段，百川并沒有選擇優(yōu)先切入代碼、搜索、內(nèi)容創(chuàng)作這些更容易驗證商業(yè)化價值的賽道，而是明確把醫(yī)療作為最核心方向。這在當時并不討巧：醫(yī)療數(shù)據(jù)敏感、場景復雜、責任邊界模糊、產(chǎn)品落地周期長，很難形成快速反饋?！爱敃r也受到行業(yè)很多人的質(zhì)疑?！蓖跣〈ǜ嬖V我們。

2026年開年，OpenAI發(fā)布ChatGPT Health，Anthropic也正式推出Claude for Healthcare，國際頭部模型廠商開始集體進入醫(yī)療領域，全球范圍內(nèi)所有公司都意識到醫(yī)療才是大模型必爭之地。

在這場競速中，作為國內(nèi)唯一專注醫(yī)療的大模型企業(yè)，百川持續(xù)突破低幻覺率、端到端問診和復雜臨床推理等核心能力，在醫(yī)療大模型底座上完成了代際領先，已從“跟隨者”躍遷為行業(yè)“引領者”與新范式的“定義者”，正以硬核實力扛起中國AI醫(yī)療發(fā)展的旗幟。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

近三千股下跌！半導體與特高壓板塊逆勢走強

千問破界：AI打通數(shù)字生活閉環(huán)，超級入口的雙輪驅(qū)動

山姆2026年拓店計劃揭曉：五城將迎首店，百店目標再進一步

賈國龍要求羅永浩正式致歉并賠償損失

人工智能代理失控防范：五項核心操作準則

項目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<rt id="9vgtj"><progress id="9vgtj"></progress></rt>