清華大學(xué)聶再清:科學(xué)研究需要大膽設(shè)想,不用刻意避免大模型幻覺(jué)
當(dāng)前,圍繞大模型的" 短期炒作太多,長(zhǎng)期關(guān)注不足 "。進(jìn)入年中,伴隨著 ChatGPT 網(wǎng)站開(kāi)始下滑的訪問(wèn)量,OpenAI 創(chuàng)始人山姆 · 奧特曼給出前述警示。
整個(gè)上半年,在歷來(lái)不會(huì)錯(cuò)過(guò) AI 技術(shù)任何細(xì)小突破的醫(yī)療健康領(lǐng)域,瘋狂同樣止不住。據(jù) 36 氪不完全統(tǒng)計(jì),國(guó)內(nèi)企業(yè)今年來(lái)發(fā)布的醫(yī)療健康類(lèi)大模型已接近 20 個(gè),全面覆蓋學(xué)術(shù)科研、醫(yī)學(xué)影像、醫(yī)療問(wèn)診等場(chǎng)景。
短暫的狂歡過(guò)后,隨著盈利模式不清晰、概念驗(yàn)證尚未落地、大模型問(wèn)診效果不及真人醫(yī)生等經(jīng)營(yíng)或技術(shù)層面的問(wèn)題頻頻出現(xiàn),行業(yè)開(kāi)始重新審視醫(yī)療大模型開(kāi)發(fā)的必要性。
在給了所有人一個(gè)驚喜之后,大模型究竟是將走向顛覆,還是只迎來(lái)一個(gè)階段性高峰?藥物研發(fā)大模型和醫(yī)療大模型有什么大的不同嗎?
36 氪就這些話題與清華大學(xué)教授聶再清聊了聊。2020 年年底,摘下阿里達(dá)摩院 " 大牛 " 的頭銜后,聶再清加盟清華大學(xué)智能產(chǎn)業(yè)研究院(AIR),目前還擔(dān)任著由 AIR 孵化的科技企業(yè)水木分子首席科學(xué)家的職位。近日,他帶領(lǐng)的團(tuán)隊(duì)剛剛開(kāi)源一款參數(shù)達(dá)百億的可商用、多模態(tài)生物醫(yī)藥大模型 BioMedGPT-10B,現(xiàn)已在多個(gè)生物醫(yī)藥問(wèn)答基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn) SOTA,在專(zhuān)業(yè)領(lǐng)域的問(wèn)答能力比肩人類(lèi)專(zhuān)家。
在聶再清看來(lái),大模型最突出的特點(diǎn)在于實(shí)現(xiàn)了自然語(yǔ)言和生物編碼語(yǔ)言的對(duì)齊。生命現(xiàn)象本質(zhì)上也是 " 一種自然進(jìn)化的語(yǔ)言編碼 ",通過(guò)將作為自然語(yǔ)言的人類(lèi)知識(shí)與蛋白質(zhì)、氨基酸等數(shù)據(jù)放置到統(tǒng)一的大模型中進(jìn)行編碼學(xué)習(xí),有望讓大模型實(shí)現(xiàn)融會(huì)貫通的能力,進(jìn)而推動(dòng)生命科學(xué)相關(guān)的研究應(yīng)用。
以下為 36 氪與聶再清的對(duì)話:
大模型要解決 " 給誰(shuí)用 " 的問(wèn)題
36 氪:AI 大模型在醫(yī)療領(lǐng)域的使用場(chǎng)景很多,更常見(jiàn)的有醫(yī)學(xué)影像、醫(yī)療文本處理等。水木分子為什么選擇藥物開(kāi)發(fā)這個(gè)方向?
聶再清:開(kāi)發(fā)大模型首先要弄清楚 " 到底給誰(shuí)用 " 的問(wèn)題。在醫(yī)療健康領(lǐng)域,可應(yīng)用的場(chǎng)景包括醫(yī)學(xué)影像、藥物研發(fā)、醫(yī)療文本處理、學(xué)術(shù)科研等。
從實(shí)用性角度而言,我們認(rèn)為醫(yī)生在接診時(shí)是否真的需要用到大模型仍有待檢驗(yàn),但大模型直接拿給科學(xué)家做 AI for Science 的使用場(chǎng)景是明確的,藥物開(kāi)發(fā)是真正能把很多文章、數(shù)據(jù)去融會(huì)貫通,并產(chǎn)生比較好的結(jié)果的領(lǐng)域。一些醫(yī)療場(chǎng)景需要的可能是智能文本和影像這兩個(gè)數(shù)據(jù)模態(tài),但在制藥這件事上,數(shù)據(jù)代碼可能是小分子、大分子,或者一段氨基酸序列,蘊(yùn)含大量生物功能在里邊,更具有挑戰(zhàn)性。
另一方面,處在訓(xùn)練初始階段,我們還不能很好地操控大模型時(shí),應(yīng)該選擇一個(gè)安全性更高的領(lǐng)域。藥物開(kāi)發(fā)的試錯(cuò)環(huán)節(jié)更多,如果一款藥有問(wèn)題,臨床前、臨床試驗(yàn)等管線開(kāi)發(fā)的各個(gè)階段都可以隨時(shí)叫停,不像診療那樣直接面對(duì)患者,風(fēng)險(xiǎn)相對(duì)更小。給病人做診斷,10 個(gè)結(jié)果里有 1 個(gè)錯(cuò)的后果可能就很?chē)?yán)重;但藥物開(kāi)發(fā)時(shí),10 個(gè)分子里有 1 個(gè)能用,就是一件好事。
36 氪:開(kāi)發(fā)生物醫(yī)藥大模型需要怎樣的團(tuán)隊(duì)配置?
聶再清:開(kāi)發(fā)大模型的門(mén)檻相對(duì)較高,團(tuán)隊(duì)既要懂人工智能,還要懂藥,至少是融合了這兩個(gè)領(lǐng)域的團(tuán)隊(duì)才能做,其實(shí)并不好招。水木分子在多模態(tài)生物醫(yī)藥大模型開(kāi)發(fā)這件事上已經(jīng)做了兩年多了,團(tuán)隊(duì)中已經(jīng)配備了醫(yī)學(xué)背景的科研人員,并聘請(qǐng)了專(zhuān)門(mén)做藥的顧問(wèn),但在生物醫(yī)藥方面也還是在不斷學(xué)習(xí)。
36 氪:利用大模型做藥物開(kāi)發(fā)和傳統(tǒng)的 AI 制藥概念有什么區(qū)別?公司提到要做 ChatDD 引領(lǐng)下的 " 人機(jī)協(xié)作對(duì)話式藥物研發(fā) ",如何理解這一概念?
聶再清:傳統(tǒng)的藥物設(shè)計(jì)可分為 TMDD(Traditional Manual Drug Design)、CADD(Computer-Aided Drug Design)和 AIDD(AI Drug Design)三個(gè)階段。其中 TMDD 基于大量人工試驗(yàn)和經(jīng)驗(yàn)主義,利用手工合成、提取和篩選藥物,低通量、成本高,且缺乏系統(tǒng)性,雖然古老,但很多藥企還在沿用這一方法。
CADD 和 AIDD 概念其實(shí)相似,都是通過(guò)計(jì)算輔助藥物的研發(fā)和設(shè)計(jì)。這一過(guò)程中,AI 本身是理論計(jì)算的一環(huán),AIDD 確實(shí)可以做得很好,但無(wú)法自己做出一款藥。因?yàn)?AI 賦能的過(guò)程中需要大量人工和 AI 模型的互動(dòng),但行業(yè)尚未開(kāi)發(fā)出一個(gè)系統(tǒng)或工具實(shí)現(xiàn)科研人員和算法的緊密互動(dòng)。
基于此,我們提出藥物設(shè)計(jì)應(yīng)該進(jìn)入一種名為 ChatDD 的新階段。相較過(guò)去,它多了自然語(yǔ)言和生物編碼語(yǔ)言對(duì)齊的環(huán)節(jié)。相當(dāng)于通過(guò)一個(gè)大模型把所有外部的知識(shí)、數(shù)據(jù)和工具全部整合,再把科研人員的問(wèn)題通過(guò)提示詞傳輸?shù)酱竽P椭?,形成交互?strong>將人的知識(shí)和直覺(jué)與數(shù)據(jù)、工具融會(huì)貫通,進(jìn)而提高藥物研發(fā)效率,甚至產(chǎn)生一些過(guò)去時(shí)意想不到的效果。
36 氪:現(xiàn)在有沒(méi)有具體的證明大模型提高藥物研發(fā)效率的案例,比如節(jié)省多少開(kāi)發(fā)時(shí)間?
聶再清:我們現(xiàn)在還更多的在干實(shí)驗(yàn)上驗(yàn)證了效率的提升,和藥企的濕實(shí)驗(yàn)驗(yàn)證還在進(jìn)行中。這件事的重點(diǎn)在于,如果有了對(duì)蛋白、分子的更好的理解,科研人員在和大模型對(duì)話時(shí),就能把語(yǔ)義帶進(jìn)去,做很多操作。
比如在做分子設(shè)計(jì)時(shí),我們輸入一個(gè)靶點(diǎn),然后就能基于靶點(diǎn)的信息和模型進(jìn)行對(duì)話,生成一個(gè)小分子藥;或者要開(kāi)發(fā)針對(duì)某個(gè)疾病的小分子藥物時(shí),找到最有可能成為成藥的小分子大模型就會(huì)自動(dòng)調(diào)用 DTI 算法進(jìn)行藥物靶點(diǎn)親和力預(yù)測(cè)。過(guò)去研發(fā)人員自己手動(dòng)用算法操作這些步驟,現(xiàn)在通過(guò)對(duì)話就能實(shí)現(xiàn)。
不要怕大模型 " 胡說(shuō)八道 "
36 氪:一般而言,基于語(yǔ)言的生成式模型,它能生成的都是模型已經(jīng)知道的規(guī)則,而藥物設(shè)計(jì)其實(shí)是一個(gè)不斷試錯(cuò)的過(guò)程,很多時(shí)候逃脫不了人的認(rèn)知。大模型本身到底能否做研究性的內(nèi)容?
聶再清:其實(shí)蛋白或小分子、疾病之間都是相互連接的知識(shí),我們把這些稱(chēng)作知識(shí)圖譜,并應(yīng)用在模型訓(xùn)練的工作上。正是因?yàn)橛羞@些聯(lián)系的存在,我們能將更多的信息融合在一起,啟發(fā)大模型去思考,比如用在優(yōu)化分子上。從這個(gè)角度來(lái)講,大模型是可以生成新的內(nèi)容的,并不只是已有知識(shí)的重復(fù)。
同理,在難成藥靶點(diǎn)的開(kāi)發(fā)上,某一個(gè)靶點(diǎn)可能尚未被開(kāi)發(fā),但有沒(méi)有和這個(gè)靶點(diǎn)相似的靶點(diǎn)?這個(gè)靶點(diǎn)屬于那個(gè)疾???如果有這樣的聯(lián)系,大模型就可以據(jù)此去做聯(lián)想,這是它優(yōu)于人工的地方。
36 氪:有觀點(diǎn)認(rèn)為,醫(yī)藥研發(fā)不一定非要做通用大模型,而是各個(gè)環(huán)節(jié)上能有特定的、加速小模型就可以。您是如何看待這個(gè)問(wèn)題的?
聶再清:小模型或針對(duì)單獨(dú)模態(tài)的模型 " 更多只是對(duì)一個(gè)生物編碼語(yǔ)言的理解 "。有一個(gè)小分子模型,理解的就是小分子的情況;做一個(gè)大分子模型,理解的就是大分子。但在實(shí)際的應(yīng)用中,由于人類(lèi)現(xiàn)有知識(shí)中存在大量通過(guò)自然語(yǔ)言記錄的內(nèi)容,所以除了要把這些小分子、大分子的自身編碼模型做得越來(lái)越好之外,還需要將這些分子的自身編碼模型與之對(duì)齊。最終,小模型會(huì)成為大模型里的一個(gè)可隨時(shí)調(diào)用的工具,從而更好應(yīng)用于藥物研究,甚至臨床報(bào)告設(shè)計(jì)、患者招募等環(huán)節(jié)。通過(guò)和一些從業(yè)者的溝通,我們發(fā)現(xiàn)這部分需求也確實(shí)存在。
從數(shù)據(jù)質(zhì)量角度來(lái)講,目前已公開(kāi)的各種結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),比如 PubMed、生物醫(yī)藥專(zhuān)利、以及海量的蛋白質(zhì)氨基酸序列和單細(xì)胞測(cè)序數(shù)據(jù)等,能夠提供的數(shù)據(jù)量就已經(jīng)足夠多,就像 ChatGPT 一樣,我們完全能夠基于公有數(shù)據(jù)訓(xùn)練模型,能做的事情非常多。對(duì)于私有數(shù)據(jù),它的價(jià)值確實(shí)也很大,但也可以通過(guò)和相關(guān)企業(yè)開(kāi)展合作的形式做私有化部署。
36 氪:如何避免大模型 " 一本正經(jīng)地胡說(shuō)八道 "?
聶再清:我們并不刻意避免??蒲泄ぷ饔袝r(shí)候需要一定的幻覺(jué),只是要把控這個(gè)程度,因?yàn)榭蒲袆?chuàng)新并不是完全把以前的知識(shí)重新重復(fù)出來(lái),而是要產(chǎn)生新的內(nèi)容,所謂" 胡說(shuō)八道 " 其實(shí)給創(chuàng)新提供了一定的可能性。
36 氪:評(píng)價(jià)大模型公司的維度、標(biāo)準(zhǔn)有哪些,大模型之后會(huì)不會(huì)陷入 " 內(nèi)卷 " 狀態(tài)?
聶再清:生物醫(yī)藥大模型企業(yè)尚處在早期階段,評(píng)價(jià)體系還沒(méi)有那么全面,但不會(huì)完全參考制藥公司的評(píng)價(jià)標(biāo)準(zhǔn)。歸根結(jié)底是要看你的大模型能否為客戶(hù)產(chǎn)生價(jià)值,比如是否真的提升效率、提高立項(xiàng)成功率等。
我認(rèn)為通用大模型不會(huì)內(nèi)卷,因?yàn)殡S著開(kāi)源的通用大模型越來(lái)越多,你只有證明自己比開(kāi)源的模型更好才有價(jià)值,不然為什么要做它?所以有些人可能做著做著就放棄了。未來(lái),真正能跑出來(lái)的可能還是和各行業(yè)相結(jié)合的大模型,因?yàn)榇竽P偷奈磥?lái)更多會(huì)成為行業(yè)的操作系統(tǒng),將各行業(yè)里的工具、數(shù)據(jù)、和自然語(yǔ)言文本整合起來(lái)。從這個(gè)角度來(lái)講,基于各行業(yè)開(kāi)發(fā)的大模型有可能會(huì)再卷一卷。
36 氪:大模型企業(yè)的商業(yè)模式可以是怎樣的?
聶再清:生物醫(yī)藥大模型本身可以有 To B 和 To C 兩種用法,基本都可以走軟件付費(fèi)、賣(mài)平臺(tái)的方式。比如 To B 向的模式,就是和合作客戶(hù)做私有化部署,至少在早期是這樣的。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





