Transformer發(fā)明者痛批:當(dāng)前AI陷入死胡同,微調(diào)純屬浪費時間!新架構(gòu)需生物啟發(fā)
【新智元導(dǎo)讀】Transformer曾是AI革命的巔峰之作,但其發(fā)明者Llion Jones警告:它并非終點。就像RNN被取代一樣,當(dāng)前無數(shù)微調(diào)研究可能只是局部優(yōu)化,而真正的AGI突破或藏在生物啟發(fā)的全新架構(gòu)中。
Transformer是AI的終點嗎?
不是,絕對不是。
那Scaling是唯一通向AGI的路徑嗎?
在Transformer架構(gòu)上研究最久的人告訴你:不是。
Sakana AI創(chuàng)始人、研究科學(xué)家Llion Jones,與其他7位合著者共同發(fā)明了Transformer。除了那七位合作者,沒人比他在Transformer上的研究時間更長。
即便如此,去年他做出了一個重要決定:大幅減少Transformer相關(guān)研究投入。不是因為該領(lǐng)域沒有新內(nèi)容,而是它已被擠得水泄不通。他直言自己成了成功的受害者:
我不認(rèn)為Transformer就是終點,也不相信只需繼續(xù)無限擴大規(guī)模。某一天,我們會迎來新突破,屆時會發(fā)現(xiàn)現(xiàn)在很多研究其實在白白浪費時間。

Transformer或重演RNN的悲劇
Transformer出現(xiàn)前,RNN是主流,曾是AI史上的重大突破。當(dāng)時所有人都致力于改進(jìn)RNN,但結(jié)果只是對同一架構(gòu)做微調(diào),比如調(diào)換門控單元位置,將語言建模性能提升到1.26、1.25比特每字符。

Transformer出現(xiàn)后,將極深的僅解碼器Transformer應(yīng)用于同一任務(wù),立刻達(dá)到1.1比特/字符。于是,所有RNN研究瞬間顯得白費。
如今的論文似乎重走老路:在同一架構(gòu)上做無數(shù)微小改動,比如調(diào)整normalization層位置或改良訓(xùn)練方式。2020年,時任谷歌DeepMind研究員Sarah Hooker提出「硬件彩票」:
通往AGI的道路不止一條,深度神經(jīng)網(wǎng)絡(luò)剛好碰上了GPU這樣的硬件彩票。

論文鏈接:https://hardwarelottery.github.io/
「硬件彩票」描述了某種研究思路勝出,是因它契合現(xiàn)有軟硬件條件,而非在所有方向中具有普遍優(yōu)越性。
Llion Jones認(rèn)為Transformer是架構(gòu)彩票,業(yè)界恐重蹈RNN覆轍。

即便有些架構(gòu)在論文中表現(xiàn)優(yōu)于Transformer,但新架構(gòu)還未好到讓行業(yè)放棄Transformer。原因很現(xiàn)實:大家對Transformer理解成熟,訓(xùn)練、微調(diào)方法及配套工具一應(yīng)俱全。要換架構(gòu),除非新架構(gòu)「碾壓式勝出」,否則不可能。
Transformer取代RNN是因差距無法忽視,深度學(xué)習(xí)興起也是如此——曾有人相信符號主義更靠譜,直到神經(jīng)網(wǎng)絡(luò)在圖像識別上展現(xiàn)壓倒性優(yōu)勢。
Llion Jones認(rèn)為Transformer太成功,反而讓大家陷入「陷阱」:
這像個巨大的「重力井」,所有嘗試離開的新方法都會被拉回。哪怕做出效果更好的新架構(gòu),只要OpenAI把Transformer擴大十倍,成果就會被比下去。

現(xiàn)在的LLM并非通用智能
Llion Jones進(jìn)一步指出,目前大語言模型并非通用智能,呈現(xiàn)「鋸齒狀智能」特性。

即它們能在某些任務(wù)上表現(xiàn)如天才,轉(zhuǎn)眼卻犯低級錯誤。剛才還解出博士級問題,下一秒?yún)s說出小學(xué)生都不會錯的答案,這種反差刺眼。
他認(rèn)為這揭示了當(dāng)前架構(gòu)的根本性問題:模型太「萬金油」,能做任何事只要訓(xùn)練足、調(diào)參準(zhǔn),但這讓我們忽視了「有沒有更好的知識表示和思考方式」。
現(xiàn)在大家把所有東西往Transformer里堆,缺功能就硬加模塊。明知要有不確定性建模、自適應(yīng)計算能力,卻選擇外掛而非從架構(gòu)本身重新思考。
為逃脫循環(huán),Jones在2025年初大幅減少Transformer研究,轉(zhuǎn)向探索性方向。他和Sakana AI同事Luke Darlow等人借鑒生物學(xué),設(shè)計了連續(xù)思維機(Continuous Thought Machines,CTM)。

傳送門:https://sakana.ai/ctm/
這不是天馬行空的發(fā)明,而是對大腦運作的簡化模擬。大腦神經(jīng)元通過同步振蕩傳遞信息,CTM捕捉此精髓:用神經(jīng)動態(tài)作為核心表示,讓模型在「內(nèi)部思考維度」逐步展開計算。
他說:「我們沒追求完全生物學(xué)可行性,因大腦不靠有線方式讓所有神經(jīng)元同步,但這種思路帶來了全新研究可能?!?/p>
重要的是,他們做研究時沒有學(xué)術(shù)圈常見的「搶發(fā)壓力」,因沒人做這個方向。有充分時間打磨論文、做實研究、做足對照實驗。
他希望這項研究成為「示范案例」,鼓勵其他研究者嘗試高風(fēng)險但可能通向大突破的方向。
后人哀之而不鑒之
這是近期AI領(lǐng)域最坦誠的言論之一。

Llion Jones承認(rèn)當(dāng)前多數(shù)研究可能只是局部最優(yōu)解的修修補補,真正突破或許在不同方向。他對此深有體會——曾親手讓上一代研究者成果黯然失色。
令人不安的是:若他正確,所有埋頭改進(jìn)Transformer變體的人都在浪費時間?;旌蠈<夷P汀⒓軜?gòu)微調(diào)、注意力機制變體,都可能在新范式出現(xiàn)時瞬間過時。
但陷阱在于:除非有人突破,否則無法確定自己是否困在局部最優(yōu)。身在局中時,一切看似進(jìn)步,直到Transformer出現(xiàn)前,RNN的改進(jìn)不也勢不可擋嗎?
同樣,Ilya近期也評論:僅靠Scaling當(dāng)前架構(gòu)不足以實現(xiàn)AGI。
Scaling時代的后果是:Scaling吸走了房間里所有氧氣,所有人開始做同樣的事,導(dǎo)致公司數(shù)量多于創(chuàng)新點子。
該如何抉擇?Llion Jones未聲稱知道未來方向,只坦言Transformer可能不是長期答案。這很誠實卻缺乏可操作性。
難題在于:每次范式轉(zhuǎn)移事后看像徒勞,但當(dāng)時是必要探索。我們無法跳過,只能祈禱有人更快找到出口。
更多閱讀:
Transformer已死?DeepMind正在押注另一條AGI路線
谷歌祭出Transformer殺手,8年首次大突破!掌門人劃出AGI死線
終結(jié)Transformer統(tǒng)治!清華姚班校友出手,劍指AI「災(zāi)難性遺忘」
一封來自Transformer之父的分手信:8年了!世界需要新的AI架構(gòu)
參考資料:
https://www.youtube.com/watch?v=DtePicx_kFY&t=1s
本文來自微信公眾號“新智元”,作者:新智元,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






