欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<style id="j3h3v"><progress id="j3h3v"><track id="j3h3v"></track></progress></style>

<label id="j3h3v"><dl id="j3h3v"><acronym id="j3h3v"></acronym></dl></label>

清華大學(xué)聶再清：科學(xué)研究需要大膽設(shè)想，不用刻意避免大模型幻覺(jué)

商界觀察

2023-08-31

當(dāng)前，圍繞大模型的" 短期炒作太多，長(zhǎng)期關(guān)注不足 "。進(jìn)入年中，伴隨著 ChatGPT 網(wǎng)站開(kāi)始下滑的訪問(wèn)量，OpenAI 創(chuàng)始人山姆 · 奧特曼給出前述警示。

整個(gè)上半年，在歷來(lái)不會(huì)錯(cuò)過(guò) AI 技術(shù)任何細(xì)小突破的醫(yī)療健康領(lǐng)域，瘋狂同樣止不住。據(jù) 36 氪不完全統(tǒng)計(jì)，國(guó)內(nèi)企業(yè)今年來(lái)發(fā)布的醫(yī)療健康類(lèi)大模型已接近 20 個(gè)，全面覆蓋學(xué)術(shù)科研、醫(yī)學(xué)影像、醫(yī)療問(wèn)診等場(chǎng)景。

短暫的狂歡過(guò)后，隨著盈利模式不清晰、概念驗(yàn)證尚未落地、大模型問(wèn)診效果不及真人醫(yī)生等經(jīng)營(yíng)或技術(shù)層面的問(wèn)題頻頻出現(xiàn)，行業(yè)開(kāi)始重新審視醫(yī)療大模型開(kāi)發(fā)的必要性。

在給了所有人一個(gè)驚喜之后，大模型究竟是將走向顛覆，還是只迎來(lái)一個(gè)階段性高峰？藥物研發(fā)大模型和醫(yī)療大模型有什么大的不同嗎？

36 氪就這些話題與清華大學(xué)教授聶再清聊了聊。2020 年年底，摘下阿里達(dá)摩院 " 大牛 " 的頭銜后，聶再清加盟清華大學(xué)智能產(chǎn)業(yè)研究院（AIR），目前還擔(dān)任著由 AIR 孵化的科技企業(yè)水木分子首席科學(xué)家的職位。近日，他帶領(lǐng)的團(tuán)隊(duì)剛剛開(kāi)源一款參數(shù)達(dá)百億的可商用、多模態(tài)生物醫(yī)藥大模型 BioMedGPT-10B，現(xiàn)已在多個(gè)生物醫(yī)藥問(wèn)答基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn) SOTA，在專(zhuān)業(yè)領(lǐng)域的問(wèn)答能力比肩人類(lèi)專(zhuān)家。

在聶再清看來(lái)，大模型最突出的特點(diǎn)在于實(shí)現(xiàn)了自然語(yǔ)言和生物編碼語(yǔ)言的對(duì)齊。生命現(xiàn)象本質(zhì)上也是 " 一種自然進(jìn)化的語(yǔ)言編碼 "，通過(guò)將作為自然語(yǔ)言的人類(lèi)知識(shí)與蛋白質(zhì)、氨基酸等數(shù)據(jù)放置到統(tǒng)一的大模型中進(jìn)行編碼學(xué)習(xí)，有望讓大模型實(shí)現(xiàn)融會(huì)貫通的能力，進(jìn)而推動(dòng)生命科學(xué)相關(guān)的研究應(yīng)用。

以下為 36 氪與聶再清的對(duì)話：

大模型要解決 " 給誰(shuí)用 " 的問(wèn)題

36 氪：AI 大模型在醫(yī)療領(lǐng)域的使用場(chǎng)景很多，更常見(jiàn)的有醫(yī)學(xué)影像、醫(yī)療文本處理等。水木分子為什么選擇藥物開(kāi)發(fā)這個(gè)方向？

聶再清：開(kāi)發(fā)大模型首先要弄清楚 " 到底給誰(shuí)用 " 的問(wèn)題。在醫(yī)療健康領(lǐng)域，可應(yīng)用的場(chǎng)景包括醫(yī)學(xué)影像、藥物研發(fā)、醫(yī)療文本處理、學(xué)術(shù)科研等。

從實(shí)用性角度而言，我們認(rèn)為醫(yī)生在接診時(shí)是否真的需要用到大模型仍有待檢驗(yàn)，但大模型直接拿給科學(xué)家做 AI for Science 的使用場(chǎng)景是明確的，藥物開(kāi)發(fā)是真正能把很多文章、數(shù)據(jù)去融會(huì)貫通，并產(chǎn)生比較好的結(jié)果的領(lǐng)域。一些醫(yī)療場(chǎng)景需要的可能是智能文本和影像這兩個(gè)數(shù)據(jù)模態(tài)，但在制藥這件事上，數(shù)據(jù)代碼可能是小分子、大分子，或者一段氨基酸序列，蘊(yùn)含大量生物功能在里邊，更具有挑戰(zhàn)性。

另一方面，處在訓(xùn)練初始階段，我們還不能很好地操控大模型時(shí)，應(yīng)該選擇一個(gè)安全性更高的領(lǐng)域。藥物開(kāi)發(fā)的試錯(cuò)環(huán)節(jié)更多，如果一款藥有問(wèn)題，臨床前、臨床試驗(yàn)等管線開(kāi)發(fā)的各個(gè)階段都可以隨時(shí)叫停，不像診療那樣直接面對(duì)患者，風(fēng)險(xiǎn)相對(duì)更小。給病人做診斷，10 個(gè)結(jié)果里有 1 個(gè)錯(cuò)的后果可能就很?chē)?yán)重；但藥物開(kāi)發(fā)時(shí)，10 個(gè)分子里有 1 個(gè)能用，就是一件好事。

36 氪：開(kāi)發(fā)生物醫(yī)藥大模型需要怎樣的團(tuán)隊(duì)配置？

聶再清：開(kāi)發(fā)大模型的門(mén)檻相對(duì)較高，團(tuán)隊(duì)既要懂人工智能，還要懂藥，至少是融合了這兩個(gè)領(lǐng)域的團(tuán)隊(duì)才能做，其實(shí)并不好招。水木分子在多模態(tài)生物醫(yī)藥大模型開(kāi)發(fā)這件事上已經(jīng)做了兩年多了，團(tuán)隊(duì)中已經(jīng)配備了醫(yī)學(xué)背景的科研人員，并聘請(qǐng)了專(zhuān)門(mén)做藥的顧問(wèn)，但在生物醫(yī)藥方面也還是在不斷學(xué)習(xí)。

36 氪：利用大模型做藥物開(kāi)發(fā)和傳統(tǒng)的 AI 制藥概念有什么區(qū)別？公司提到要做 ChatDD 引領(lǐng)下的 " 人機(jī)協(xié)作對(duì)話式藥物研發(fā) "，如何理解這一概念？

聶再清：傳統(tǒng)的藥物設(shè)計(jì)可分為 TMDD（Traditional Manual Drug Design）、CADD（Computer-Aided Drug Design）和 AIDD（AI Drug Design）三個(gè)階段。其中 TMDD 基于大量人工試驗(yàn)和經(jīng)驗(yàn)主義，利用手工合成、提取和篩選藥物，低通量、成本高，且缺乏系統(tǒng)性，雖然古老，但很多藥企還在沿用這一方法。

CADD 和 AIDD 概念其實(shí)相似，都是通過(guò)計(jì)算輔助藥物的研發(fā)和設(shè)計(jì)。這一過(guò)程中，AI 本身是理論計(jì)算的一環(huán)，AIDD 確實(shí)可以做得很好，但無(wú)法自己做出一款藥。因?yàn)?AI 賦能的過(guò)程中需要大量人工和 AI 模型的互動(dòng)，但行業(yè)尚未開(kāi)發(fā)出一個(gè)系統(tǒng)或工具實(shí)現(xiàn)科研人員和算法的緊密互動(dòng)。

基于此，我們提出藥物設(shè)計(jì)應(yīng)該進(jìn)入一種名為 ChatDD 的新階段。相較過(guò)去，它多了自然語(yǔ)言和生物編碼語(yǔ)言對(duì)齊的環(huán)節(jié)。相當(dāng)于通過(guò)一個(gè)大模型把所有外部的知識(shí)、數(shù)據(jù)和工具全部整合，再把科研人員的問(wèn)題通過(guò)提示詞傳輸?shù)酱竽Ｐ椭?，形成交互?strong>將人的知識(shí)和直覺(jué)與數(shù)據(jù)、工具融會(huì)貫通，進(jìn)而提高藥物研發(fā)效率，甚至產(chǎn)生一些過(guò)去時(shí)意想不到的效果。

36 氪：現(xiàn)在有沒(méi)有具體的證明大模型提高藥物研發(fā)效率的案例，比如節(jié)省多少開(kāi)發(fā)時(shí)間？

聶再清：我們現(xiàn)在還更多的在干實(shí)驗(yàn)上驗(yàn)證了效率的提升，和藥企的濕實(shí)驗(yàn)驗(yàn)證還在進(jìn)行中。這件事的重點(diǎn)在于，如果有了對(duì)蛋白、分子的更好的理解，科研人員在和大模型對(duì)話時(shí)，就能把語(yǔ)義帶進(jìn)去，做很多操作。

比如在做分子設(shè)計(jì)時(shí)，我們輸入一個(gè)靶點(diǎn)，然后就能基于靶點(diǎn)的信息和模型進(jìn)行對(duì)話，生成一個(gè)小分子藥；或者要開(kāi)發(fā)針對(duì)某個(gè)疾病的小分子藥物時(shí)，找到最有可能成為成藥的小分子大模型就會(huì)自動(dòng)調(diào)用 DTI 算法進(jìn)行藥物靶點(diǎn)親和力預(yù)測(cè)。過(guò)去研發(fā)人員自己手動(dòng)用算法操作這些步驟，現(xiàn)在通過(guò)對(duì)話就能實(shí)現(xiàn)。

不要怕大模型 " 胡說(shuō)八道 "

36 氪：一般而言，基于語(yǔ)言的生成式模型，它能生成的都是模型已經(jīng)知道的規(guī)則，而藥物設(shè)計(jì)其實(shí)是一個(gè)不斷試錯(cuò)的過(guò)程，很多時(shí)候逃脫不了人的認(rèn)知。大模型本身到底能否做研究性的內(nèi)容？

聶再清：其實(shí)蛋白或小分子、疾病之間都是相互連接的知識(shí)，我們把這些稱(chēng)作知識(shí)圖譜，并應(yīng)用在模型訓(xùn)練的工作上。正是因?yàn)橛羞@些聯(lián)系的存在，我們能將更多的信息融合在一起，啟發(fā)大模型去思考，比如用在優(yōu)化分子上。從這個(gè)角度來(lái)講，大模型是可以生成新的內(nèi)容的，并不只是已有知識(shí)的重復(fù)。

同理，在難成藥靶點(diǎn)的開(kāi)發(fā)上，某一個(gè)靶點(diǎn)可能尚未被開(kāi)發(fā)，但有沒(méi)有和這個(gè)靶點(diǎn)相似的靶點(diǎn)？這個(gè)靶點(diǎn)屬于那個(gè)疾??？如果有這樣的聯(lián)系，大模型就可以據(jù)此去做聯(lián)想，這是它優(yōu)于人工的地方。

36 氪：有觀點(diǎn)認(rèn)為，醫(yī)藥研發(fā)不一定非要做通用大模型，而是各個(gè)環(huán)節(jié)上能有特定的、加速小模型就可以。您是如何看待這個(gè)問(wèn)題的？

聶再清：小模型或針對(duì)單獨(dú)模態(tài)的模型 " 更多只是對(duì)一個(gè)生物編碼語(yǔ)言的理解 "。有一個(gè)小分子模型，理解的就是小分子的情況；做一個(gè)大分子模型，理解的就是大分子。但在實(shí)際的應(yīng)用中，由于人類(lèi)現(xiàn)有知識(shí)中存在大量通過(guò)自然語(yǔ)言記錄的內(nèi)容，所以除了要把這些小分子、大分子的自身編碼模型做得越來(lái)越好之外，還需要將這些分子的自身編碼模型與之對(duì)齊。最終，小模型會(huì)成為大模型里的一個(gè)可隨時(shí)調(diào)用的工具，從而更好應(yīng)用于藥物研究，甚至臨床報(bào)告設(shè)計(jì)、患者招募等環(huán)節(jié)。通過(guò)和一些從業(yè)者的溝通，我們發(fā)現(xiàn)這部分需求也確實(shí)存在。

從數(shù)據(jù)質(zhì)量角度來(lái)講，目前已公開(kāi)的各種結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)，比如 PubMed、生物醫(yī)藥專(zhuān)利、以及海量的蛋白質(zhì)氨基酸序列和單細(xì)胞測(cè)序數(shù)據(jù)等，能夠提供的數(shù)據(jù)量就已經(jīng)足夠多，就像 ChatGPT 一樣，我們完全能夠基于公有數(shù)據(jù)訓(xùn)練模型，能做的事情非常多。對(duì)于私有數(shù)據(jù)，它的價(jià)值確實(shí)也很大，但也可以通過(guò)和相關(guān)企業(yè)開(kāi)展合作的形式做私有化部署。

36 氪：如何避免大模型 " 一本正經(jīng)地胡說(shuō)八道 "？

聶再清：我們并不刻意避免?？蒲泄ぷ饔袝r(shí)候需要一定的幻覺(jué)，只是要把控這個(gè)程度，因?yàn)榭蒲袆?chuàng)新并不是完全把以前的知識(shí)重新重復(fù)出來(lái)，而是要產(chǎn)生新的內(nèi)容，所謂" 胡說(shuō)八道 " 其實(shí)給創(chuàng)新提供了一定的可能性。

36 氪：評(píng)價(jià)大模型公司的維度、標(biāo)準(zhǔn)有哪些，大模型之后會(huì)不會(huì)陷入 " 內(nèi)卷 " 狀態(tài)？

聶再清：生物醫(yī)藥大模型企業(yè)尚處在早期階段，評(píng)價(jià)體系還沒(méi)有那么全面，但不會(huì)完全參考制藥公司的評(píng)價(jià)標(biāo)準(zhǔn)。歸根結(jié)底是要看你的大模型能否為客戶(hù)產(chǎn)生價(jià)值，比如是否真的提升效率、提高立項(xiàng)成功率等。

我認(rèn)為通用大模型不會(huì)內(nèi)卷，因?yàn)殡S著開(kāi)源的通用大模型越來(lái)越多，你只有證明自己比開(kāi)源的模型更好才有價(jià)值，不然為什么要做它？所以有些人可能做著做著就放棄了。未來(lái)，真正能跑出來(lái)的可能還是和各行業(yè)相結(jié)合的大模型，因?yàn)榇竽Ｐ偷奈磥?lái)更多會(huì)成為行業(yè)的操作系統(tǒng)，將各行業(yè)里的工具、數(shù)據(jù)、和自然語(yǔ)言文本整合起來(lái)。從這個(gè)角度來(lái)講，基于各行業(yè)開(kāi)發(fā)的大模型有可能會(huì)再卷一卷。

36 氪：大模型企業(yè)的商業(yè)模式可以是怎樣的？

聶再清：生物醫(yī)藥大模型本身可以有 To B 和 To C 兩種用法，基本都可以走軟件付費(fèi)、賣(mài)平臺(tái)的方式。比如 To B 向的模式，就是和合作客戶(hù)做私有化部署，至少在早期是這樣的。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

降低法律咨詢(xún)服務(wù)門(mén)檻，「LegalNow」推出 AI 法律協(xié)議咨詢(xún)產(chǎn)品

聚焦數(shù)字科技，德必天府五街WE""為企業(yè)打造舒適高效“產(chǎn)業(yè)森林”

治療抑郁癥的公司，融完B輪就要IPO了

小鵬汽車(chē)?yán)蠈⒓o(jì)宇回歸，或醞釀智能化體系調(diào)整

天九通航斬獲“商業(yè)模式”“社會(huì)責(zé)任”兩項(xiàng)大獎(jiǎng)

項(xiàng)目推薦

迪瓜租機(jī)

康老板 · 氧療堂

<style id="0pv83"><progress id="0pv83"><track id="0pv83"></track></progress></style>
<span id="0pv83"><delect id="0pv83"><small id="0pv83"></small></delect></span>