欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<rt id="9zrft"><progress id="9zrft"></progress></rt>

AI通讀基因全譜：十億參數(shù)單細胞模型scLong的突破與應用

03-19 06:51

scLong：10億參數(shù)單細胞基礎模型，整合全基因組與GO知識，多任務性能全面提升。

【導讀】scLong不再局限于少數(shù)高表達基因，而是將單個細胞中近2.8萬個基因全部納入建模，并結合Gene Ontology（GO）的生物學知識，以更完整地理解基因上下文信息。

在單細胞轉錄組學領域，研究者致力于從細胞的基因表達數(shù)據(jù)中解讀細胞狀態(tài)、調控關系，甚至預測基因敲除或藥物干預后細胞的變化。

近年來，基礎模型逐漸進入該領域，展現(xiàn)出強大的遷移能力；但現(xiàn)有方法常為節(jié)省計算資源，僅關注少量高表達基因，忽略大量低表達或零表達基因，同時缺乏對外部基因功能知識的系統(tǒng)整合。這不僅會丟失關鍵調控信號，也易使模型對復雜生物過程產(chǎn)生片面認知。

近日，MBZUAI、加州大學圣地亞哥分校（UC San Diego）等機構的聯(lián)合團隊在《Nature Communications》發(fā)表了scLong研究成果。

論文鏈接：https://www.nature.com/articles/s41467-026-69102-y

這是一款擁有10億參數(shù)的單細胞基礎模型，基于約4800萬個細胞預訓練而成，可在整個人類轉錄組范圍內對約27874個基因進行建模，并將GO提供的結構化生物學知識融入模型。

研究表明，scLong在遺傳擾動預測、化學擾動預測、癌癥藥物反應預測、基因調控網(wǎng)絡推斷等多項任務中，均優(yōu)于現(xiàn)有單細胞基礎模型及多種任務專用模型。

研究背景

為何單細胞領域需要“更長”的模型？

因為細胞并非由少數(shù)“明星基因”決定。許多現(xiàn)有模型僅對約1500至2000個高表達基因進行自注意力計算，雖節(jié)省算力，但代價是大量低表達基因被排除在外。

這些低表達基因雖“表達量低”，卻常扮演調控開關、信號微調器的角色，甚至在稀有細胞類型、應激反應及疾病進展中發(fā)揮關鍵作用。

簡言之，過去的模型更像是在閱讀“摘要”，而非“全文”。

另一個問題是，僅依靠表達矩陣，模型難以真正理解“基因的功能”。

而Gene Ontology提供了基因在生物過程、分子功能、細胞組分方面的結構化知識。過去的模型多從數(shù)據(jù)中“自主學習”，未明確利用這些成熟的生物學先驗，導致在理解功能關聯(lián)、調控關系及跨條件泛化時存在局限。

因此，scLong的目標很明確：既要全面覆蓋基因，又要深入理解基因功能。

將細胞視為完整的“句子”

用自然語言打比方，scLong的核心思路形象易懂：把細胞的整條基因表達譜當作一句冗長復雜的“句子”。

在這個“句子”中，每個“詞”是“基因ID+表達值”的組合。模型先通過表達編碼器將數(shù)值型表達量映射為向量；再通過基因編碼器為每個基因生成具有生物學含義的表示；兩者相加后，得到“詞”的初始表示。

隨后，上下文編碼器讓這些基因“相互感知”，從而學習基因在當前細胞中的上下文關系。

scLong的一大亮點是未簡單舍棄低表達基因。它采用雙編碼器設計：對高表達基因使用較大的Performer編碼器，對低表達基因使用較小的Performer編碼器，最后通過full-length Performer整合所有基因。這在保留全基因組上下文信息的同時，平衡了計算量與建模能力。

更重要的是，scLong融入了GO知識圖譜。研究團隊先根據(jù)基因共享的GO注釋構建基因圖：

若兩個基因在生物過程、分子功能或細胞定位上足夠相似，就會被連接；

再用圖卷積網(wǎng)絡（GCN）學習基因表示。

這樣，模型不僅知道“基因在細胞中的表達量”，還了解“基因的功能及相關基因”，相當于為每個“詞”添加了背景知識。

預訓練方面，scLong采用類似BERT的思路：隨機遮蓋部分表達值，讓模型重建。

研究團隊使用來自1618個單細胞數(shù)據(jù)集、覆蓋50多種組織的約4800萬個人類細胞進行預訓練，涵蓋27874個基因，包括蛋白編碼基因和非編碼基因。對單細胞領域而言，這相當于讓模型先“通讀海量語料”，再執(zhí)行下游任務。

值得注意的是，scLong將零表達也視為有效信息。零表達可能代表“表達量過低未檢測到”，也可能是“基因在該細胞中確實關閉”。前者對應微弱但真實的生物信號，后者則揭示細胞身份或調控狀態(tài)。這種“重視缺席信息”的思路對單細胞數(shù)據(jù)至關重要。

從基因擾動到藥物反應的多任務突破

遺傳擾動預測：泛化能力更強

在遺傳擾動任務中，模型需根據(jù)細胞擾動前的表達及擾動條件，預測擾動后的表達變化。

研究使用Norman數(shù)據(jù)集評測，重點關注模型對未見過的擾動組合的泛化能力。結果顯示，scLong在多數(shù)場景下優(yōu)于Geneformer、scGPT、scFoundation、UCE及任務專用模型GEARS、ALM和簡單基線No-Change。尤其在Seen 0/1和Seen 0/2等復雜場景中，優(yōu)勢更明顯：Seen 0/1場景下，scLong的Pearson相關系數(shù)達0.625，高于GEARS的0.561；Seen 0/2場景下，MSE為0.170，優(yōu)于多數(shù)基線。

此外，scLong對雙基因擾動中的協(xié)同和抑制兩類遺傳互作的識別也優(yōu)于GEARS，表明它不僅能預測“變化程度”，還能理解“基因間的相互作用”。

化學擾動預測：新藥效果預判更準

在化學擾動任務中，模型輸入藥物分子圖、劑量和細胞系信息，輸出擾動后的基因表達。研究在L1000子集上評估scLong，結果顯示：無論RMSE、Spearman/Pearson相關系數(shù)，還是Top-100精度指標，scLong均顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE和任務專用模型DeepCE。

這意味著面對新化合物，scLong更擅長預判其對細胞狀態(tài)的影響。

癌癥藥物反應預測：單藥與聯(lián)合用藥均適用

在癌癥藥物反應預測任務中，模型需根據(jù)藥物結構和癌細胞表達譜預測療效。研究在DeepCDR數(shù)據(jù)集上顯示，scLong的Pearson相關系數(shù)達0.878，高于Geneformer的0.852、scFoundation的0.867、DeepCDR的0.837及線性模型的0.746。

更重要的是，研究團隊將任務升級到藥物組合預測：同一癌細胞系對兩種藥物聯(lián)用的反應。在分布外測試集上，scLong的AUROC達0.652，超過多種基礎模型和任務模型，說明它能在復雜的聯(lián)合治療場景中提供有效線索。

基因調控網(wǎng)絡與批次整合：知識組織能力突出

在基因調控網(wǎng)絡（GRN）推斷任務中，scLong通過基因表示的相似性重建調控關系。結果顯示，其AUPR達1.35，顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3及直接使用GO圖的基線。

這表明scLong學到的不是“死記硬背”的GO網(wǎng)絡，而是結合細胞數(shù)據(jù)后更貼近真實生物系統(tǒng)的關系圖。

在零樣本批次整合任務中，scLong在pancreas數(shù)據(jù)集上的batch ASW達0.96，超過Raw、HVG、scVI及其他基礎模型。值得注意的是，scLong未在該數(shù)據(jù)集上預訓練或微調，卻超過了專門訓練的scVI，顯示出強大的遷移性。

消融實驗也證實：去掉低表達基因建?；騁O圖后，性能會下降，說明scLong的提升源于“全面覆蓋基因”和“引入生物知識”。

核心亮點總結

從“少數(shù)基因”到“全基因組”：將約2.8萬個基因納入上下文建模，而非僅關注高表達基因。

生物知識深度嵌入：GO不再是單純的注釋表，而是參與基因表示學習的核心結構。

大規(guī)模預訓練增強遷移能力：基于4800萬細胞的預訓練，使模型在多下游任務中穩(wěn)健發(fā)揮。

不僅“更大”，更“懂生物”：研究的關鍵啟示不是參數(shù)量，而是證明低表達/零表達基因和結構化先驗知識對單細胞基礎模型至關重要。

實際應用前景

從應用角度看，scLong的潛力清晰可見。

首先，在基因擾動與功能研究中，它能幫助研究者快速預測敲除、過表達、組合擾動的轉錄組變化，減少濕實驗試錯成本。

其次，在藥物發(fā)現(xiàn)和精準醫(yī)學中，它可預測化學擾動和癌癥藥物反應，為候選藥物篩選、聯(lián)合用藥設計和個體化治療提供計算支持。

再次，在系統(tǒng)生物學層面，它能輔助重建基因調控網(wǎng)絡、理解細胞狀態(tài)轉換，并在多批次數(shù)據(jù)整合中提供穩(wěn)定的細胞表示。論文作者指出，該模型有望推動精準醫(yī)療、藥物研發(fā)和細胞生物學研究。

長遠來看，scLong代表了一個重要方向：單細胞基礎模型不應只是將Transformer應用于生物數(shù)據(jù)，而應同時擁抱“全局上下文”和“領域知識”。

當模型既能“通讀基因全譜”，又能理解基因的生物學定位時，才更可能成為生命科學的通用智能工具。

參考資料：https://www.nature.com/articles/s41467-026-69102-y

本文來自微信公眾號“新智元”，編輯：LRST，36氪經(jīng)授權發(fā)布。

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

拓竹3D打印未造出真Labubu，卻戳中泡泡瑪特的焦慮點

醫(yī)院門口的烤紅薯攤：藏在煙火氣里的生存與慰藉

胡庭州的憂慮：水井坊年輕化布局有動作卻無爆款

淘天集團2027屆實習生招聘啟動：聚焦AI領域新增三類核心崗位

阿里云漲價公告提振市場恒生科技指數(shù)由跌轉漲