AI通讀基因全譜:十億參數(shù)單細胞模型scLong的突破與應用
【導讀】scLong不再局限于少數(shù)高表達基因,而是將單個細胞中近2.8萬個基因全部納入建模,并結合Gene Ontology(GO)的生物學知識,以更完整地理解基因上下文信息。
在單細胞轉錄組學領域,研究者致力于從細胞的基因表達數(shù)據(jù)中解讀細胞狀態(tài)、調控關系,甚至預測基因敲除或藥物干預后細胞的變化。
近年來,基礎模型逐漸進入該領域,展現(xiàn)出強大的遷移能力;但現(xiàn)有方法常為節(jié)省計算資源,僅關注少量高表達基因,忽略大量低表達或零表達基因,同時缺乏對外部基因功能知識的系統(tǒng)整合。這不僅會丟失關鍵調控信號,也易使模型對復雜生物過程產(chǎn)生片面認知。

近日,MBZUAI、加州大學圣地亞哥分校(UC San Diego)等機構的聯(lián)合團隊在《Nature Communications》發(fā)表了scLong研究成果。

論文鏈接:https://www.nature.com/articles/s41467-026-69102-y
這是一款擁有10億參數(shù)的單細胞基礎模型,基于約4800萬個細胞預訓練而成,可在整個人類轉錄組范圍內對約27874個基因進行建模,并將GO提供的結構化生物學知識融入模型。
研究表明,scLong在遺傳擾動預測、化學擾動預測、癌癥藥物反應預測、基因調控網(wǎng)絡推斷等多項任務中,均優(yōu)于現(xiàn)有單細胞基礎模型及多種任務專用模型。
研究背景
為何單細胞領域需要“更長”的模型?
因為細胞并非由少數(shù)“明星基因”決定。許多現(xiàn)有模型僅對約1500至2000個高表達基因進行自注意力計算,雖節(jié)省算力,但代價是大量低表達基因被排除在外。
這些低表達基因雖“表達量低”,卻常扮演調控開關、信號微調器的角色,甚至在稀有細胞類型、應激反應及疾病進展中發(fā)揮關鍵作用。
簡言之,過去的模型更像是在閱讀“摘要”,而非“全文”。
另一個問題是,僅依靠表達矩陣,模型難以真正理解“基因的功能”。
而Gene Ontology提供了基因在生物過程、分子功能、細胞組分方面的結構化知識。過去的模型多從數(shù)據(jù)中“自主學習”,未明確利用這些成熟的生物學先驗,導致在理解功能關聯(lián)、調控關系及跨條件泛化時存在局限。
因此,scLong的目標很明確:既要全面覆蓋基因,又要深入理解基因功能。
將細胞視為完整的“句子”
用自然語言打比方,scLong的核心思路形象易懂:把細胞的整條基因表達譜當作一句冗長復雜的“句子”。
在這個“句子”中,每個“詞”是“基因ID+表達值”的組合。模型先通過表達編碼器將數(shù)值型表達量映射為向量;再通過基因編碼器為每個基因生成具有生物學含義的表示;兩者相加后,得到“詞”的初始表示。
隨后,上下文編碼器讓這些基因“相互感知”,從而學習基因在當前細胞中的上下文關系。
scLong的一大亮點是未簡單舍棄低表達基因。它采用雙編碼器設計:對高表達基因使用較大的Performer編碼器,對低表達基因使用較小的Performer編碼器,最后通過full-length Performer整合所有基因。這在保留全基因組上下文信息的同時,平衡了計算量與建模能力。
更重要的是,scLong融入了GO知識圖譜。研究團隊先根據(jù)基因共享的GO注釋構建基因圖:
若兩個基因在生物過程、分子功能或細胞定位上足夠相似,就會被連接;
再用圖卷積網(wǎng)絡(GCN)學習基因表示。
這樣,模型不僅知道“基因在細胞中的表達量”,還了解“基因的功能及相關基因”,相當于為每個“詞”添加了背景知識。
預訓練方面,scLong采用類似BERT的思路:隨機遮蓋部分表達值,讓模型重建。
研究團隊使用來自1618個單細胞數(shù)據(jù)集、覆蓋50多種組織的約4800萬個人類細胞進行預訓練,涵蓋27874個基因,包括蛋白編碼基因和非編碼基因。對單細胞領域而言,這相當于讓模型先“通讀海量語料”,再執(zhí)行下游任務。
值得注意的是,scLong將零表達也視為有效信息。零表達可能代表“表達量過低未檢測到”,也可能是“基因在該細胞中確實關閉”。前者對應微弱但真實的生物信號,后者則揭示細胞身份或調控狀態(tài)。這種“重視缺席信息”的思路對單細胞數(shù)據(jù)至關重要。
從基因擾動到藥物反應的多任務突破
遺傳擾動預測:泛化能力更強

在遺傳擾動任務中,模型需根據(jù)細胞擾動前的表達及擾動條件,預測擾動后的表達變化。
研究使用Norman數(shù)據(jù)集評測,重點關注模型對未見過的擾動組合的泛化能力。結果顯示,scLong在多數(shù)場景下優(yōu)于Geneformer、scGPT、scFoundation、UCE及任務專用模型GEARS、ALM和簡單基線No-Change。尤其在Seen 0/1和Seen 0/2等復雜場景中,優(yōu)勢更明顯:Seen 0/1場景下,scLong的Pearson相關系數(shù)達0.625,高于GEARS的0.561;Seen 0/2場景下,MSE為0.170,優(yōu)于多數(shù)基線。
此外,scLong對雙基因擾動中的協(xié)同和抑制兩類遺傳互作的識別也優(yōu)于GEARS,表明它不僅能預測“變化程度”,還能理解“基因間的相互作用”。
化學擾動預測:新藥效果預判更準
在化學擾動任務中,模型輸入藥物分子圖、劑量和細胞系信息,輸出擾動后的基因表達。研究在L1000子集上評估scLong,結果顯示:無論RMSE、Spearman/Pearson相關系數(shù),還是Top-100精度指標,scLong均顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE和任務專用模型DeepCE。
這意味著面對新化合物,scLong更擅長預判其對細胞狀態(tài)的影響。
癌癥藥物反應預測:單藥與聯(lián)合用藥均適用
在癌癥藥物反應預測任務中,模型需根據(jù)藥物結構和癌細胞表達譜預測療效。研究在DeepCDR數(shù)據(jù)集上顯示,scLong的Pearson相關系數(shù)達0.878,高于Geneformer的0.852、scFoundation的0.867、DeepCDR的0.837及線性模型的0.746。

更重要的是,研究團隊將任務升級到藥物組合預測:同一癌細胞系對兩種藥物聯(lián)用的反應。在分布外測試集上,scLong的AUROC達0.652,超過多種基礎模型和任務模型,說明它能在復雜的聯(lián)合治療場景中提供有效線索。
基因調控網(wǎng)絡與批次整合:知識組織能力突出
在基因調控網(wǎng)絡(GRN)推斷任務中,scLong通過基因表示的相似性重建調控關系。結果顯示,其AUPR達1.35,顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3及直接使用GO圖的基線。
這表明scLong學到的不是“死記硬背”的GO網(wǎng)絡,而是結合細胞數(shù)據(jù)后更貼近真實生物系統(tǒng)的關系圖。

在零樣本批次整合任務中,scLong在pancreas數(shù)據(jù)集上的batch ASW達0.96,超過Raw、HVG、scVI及其他基礎模型。值得注意的是,scLong未在該數(shù)據(jù)集上預訓練或微調,卻超過了專門訓練的scVI,顯示出強大的遷移性。
消融實驗也證實:去掉低表達基因建?;騁O圖后,性能會下降,說明scLong的提升源于“全面覆蓋基因”和“引入生物知識”。
核心亮點總結
從“少數(shù)基因”到“全基因組”:將約2.8萬個基因納入上下文建模,而非僅關注高表達基因。
生物知識深度嵌入:GO不再是單純的注釋表,而是參與基因表示學習的核心結構。
大規(guī)模預訓練增強遷移能力:基于4800萬細胞的預訓練,使模型在多下游任務中穩(wěn)健發(fā)揮。
不僅“更大”,更“懂生物”:研究的關鍵啟示不是參數(shù)量,而是證明低表達/零表達基因和結構化先驗知識對單細胞基礎模型至關重要。
實際應用前景
從應用角度看,scLong的潛力清晰可見。
首先,在基因擾動與功能研究中,它能幫助研究者快速預測敲除、過表達、組合擾動的轉錄組變化,減少濕實驗試錯成本。
其次,在藥物發(fā)現(xiàn)和精準醫(yī)學中,它可預測化學擾動和癌癥藥物反應,為候選藥物篩選、聯(lián)合用藥設計和個體化治療提供計算支持。
再次,在系統(tǒng)生物學層面,它能輔助重建基因調控網(wǎng)絡、理解細胞狀態(tài)轉換,并在多批次數(shù)據(jù)整合中提供穩(wěn)定的細胞表示。論文作者指出,該模型有望推動精準醫(yī)療、藥物研發(fā)和細胞生物學研究。
長遠來看,scLong代表了一個重要方向:單細胞基礎模型不應只是將Transformer應用于生物數(shù)據(jù),而應同時擁抱“全局上下文”和“領域知識”。
當模型既能“通讀基因全譜”,又能理解基因的生物學定位時,才更可能成為生命科學的通用智能工具。
參考資料:https://www.nature.com/articles/s41467-026-69102-y
本文來自微信公眾號“新智元”,編輯:LRST,36氪經(jīng)授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



