欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<ul id="k94qm"></ul>

<strike id="k94qm"></strike>

<menu id="k94qm"></menu>

<strike id="k94qm"><sup id="k94qm"></sup></strike>

Transformer發(fā)明者痛批：當(dāng)前AI陷入死胡同，微調(diào)純屬浪費時間！新架構(gòu)需生物啟發(fā)

01-18 12:54

【新智元導(dǎo)讀】Transformer曾是AI革命的巔峰之作，但其發(fā)明者Llion Jones警告：它并非終點。就像RNN被取代一樣，當(dāng)前無數(shù)微調(diào)研究可能只是局部優(yōu)化，而真正的AGI突破或藏在生物啟發(fā)的全新架構(gòu)中。

Transformer是AI的終點嗎？

不是，絕對不是。

那Scaling是唯一通向AGI的路徑嗎？

在Transformer架構(gòu)上研究最久的人告訴你：不是。

Sakana AI創(chuàng)始人、研究科學(xué)家Llion Jones，與其他7位合著者共同發(fā)明了Transformer。除了那七位合作者，沒人比他在Transformer上的研究時間更長。

即便如此，去年他做出了一個重要決定：大幅減少Transformer相關(guān)研究投入。不是因為該領(lǐng)域沒有新內(nèi)容，而是它已被擠得水泄不通。他直言自己成了成功的受害者：

我不認(rèn)為Transformer就是終點，也不相信只需繼續(xù)無限擴大規(guī)模。某一天，我們會迎來新突破，屆時會發(fā)現(xiàn)現(xiàn)在很多研究其實在白白浪費時間。

Transformer或重演RNN的悲劇

Transformer出現(xiàn)前，RNN是主流，曾是AI史上的重大突破。當(dāng)時所有人都致力于改進(jìn)RNN，但結(jié)果只是對同一架構(gòu)做微調(diào)，比如調(diào)換門控單元位置，將語言建模性能提升到1.26、1.25比特每字符。

Transformer出現(xiàn)后，將極深的僅解碼器Transformer應(yīng)用于同一任務(wù)，立刻達(dá)到1.1比特/字符。于是，所有RNN研究瞬間顯得白費。

如今的論文似乎重走老路：在同一架構(gòu)上做無數(shù)微小改動，比如調(diào)整normalization層位置或改良訓(xùn)練方式。2020年，時任谷歌DeepMind研究員Sarah Hooker提出「硬件彩票」：

通往AGI的道路不止一條，深度神經(jīng)網(wǎng)絡(luò)剛好碰上了GPU這樣的硬件彩票。

論文鏈接：https://hardwarelottery.github.io/

「硬件彩票」描述了某種研究思路勝出，是因它契合現(xiàn)有軟硬件條件，而非在所有方向中具有普遍優(yōu)越性。

Llion Jones認(rèn)為Transformer是架構(gòu)彩票，業(yè)界恐重蹈RNN覆轍。

即便有些架構(gòu)在論文中表現(xiàn)優(yōu)于Transformer，但新架構(gòu)還未好到讓行業(yè)放棄Transformer。原因很現(xiàn)實：大家對Transformer理解成熟，訓(xùn)練、微調(diào)方法及配套工具一應(yīng)俱全。要換架構(gòu)，除非新架構(gòu)「碾壓式勝出」，否則不可能。

Transformer取代RNN是因差距無法忽視，深度學(xué)習(xí)興起也是如此——曾有人相信符號主義更靠譜，直到神經(jīng)網(wǎng)絡(luò)在圖像識別上展現(xiàn)壓倒性優(yōu)勢。

Llion Jones認(rèn)為Transformer太成功，反而讓大家陷入「陷阱」：

這像個巨大的「重力井」，所有嘗試離開的新方法都會被拉回。哪怕做出效果更好的新架構(gòu)，只要OpenAI把Transformer擴大十倍，成果就會被比下去。

現(xiàn)在的LLM并非通用智能

Llion Jones進(jìn)一步指出，目前大語言模型并非通用智能，呈現(xiàn)「鋸齒狀智能」特性。

即它們能在某些任務(wù)上表現(xiàn)如天才，轉(zhuǎn)眼卻犯低級錯誤。剛才還解出博士級問題，下一秒?yún)s說出小學(xué)生都不會錯的答案，這種反差刺眼。

他認(rèn)為這揭示了當(dāng)前架構(gòu)的根本性問題：模型太「萬金油」，能做任何事只要訓(xùn)練足、調(diào)參準(zhǔn)，但這讓我們忽視了「有沒有更好的知識表示和思考方式」。

現(xiàn)在大家把所有東西往Transformer里堆，缺功能就硬加模塊。明知要有不確定性建模、自適應(yīng)計算能力，卻選擇外掛而非從架構(gòu)本身重新思考。

為逃脫循環(huán)，Jones在2025年初大幅減少Transformer研究，轉(zhuǎn)向探索性方向。他和Sakana AI同事Luke Darlow等人借鑒生物學(xué)，設(shè)計了連續(xù)思維機（Continuous Thought Machines，CTM）。

傳送門：https://sakana.ai/ctm/

這不是天馬行空的發(fā)明，而是對大腦運作的簡化模擬。大腦神經(jīng)元通過同步振蕩傳遞信息，CTM捕捉此精髓：用神經(jīng)動態(tài)作為核心表示，讓模型在「內(nèi)部思考維度」逐步展開計算。

他說：「我們沒追求完全生物學(xué)可行性，因大腦不靠有線方式讓所有神經(jīng)元同步，但這種思路帶來了全新研究可能?！?/p>

重要的是，他們做研究時沒有學(xué)術(shù)圈常見的「搶發(fā)壓力」，因沒人做這個方向。有充分時間打磨論文、做實研究、做足對照實驗。

他希望這項研究成為「示范案例」，鼓勵其他研究者嘗試高風(fēng)險但可能通向大突破的方向。

后人哀之而不鑒之

這是近期AI領(lǐng)域最坦誠的言論之一。

Llion Jones承認(rèn)當(dāng)前多數(shù)研究可能只是局部最優(yōu)解的修修補補，真正突破或許在不同方向。他對此深有體會——曾親手讓上一代研究者成果黯然失色。

令人不安的是：若他正確，所有埋頭改進(jìn)Transformer變體的人都在浪費時間?；旌蠈＜夷Ｐ汀⒓軜?gòu)微調(diào)、注意力機制變體，都可能在新范式出現(xiàn)時瞬間過時。

但陷阱在于：除非有人突破，否則無法確定自己是否困在局部最優(yōu)。身在局中時，一切看似進(jìn)步，直到Transformer出現(xiàn)前，RNN的改進(jìn)不也勢不可擋嗎？

同樣，Ilya近期也評論：僅靠Scaling當(dāng)前架構(gòu)不足以實現(xiàn)AGI。

Scaling時代的后果是：Scaling吸走了房間里所有氧氣，所有人開始做同樣的事，導(dǎo)致公司數(shù)量多于創(chuàng)新點子。

該如何抉擇？Llion Jones未聲稱知道未來方向，只坦言Transformer可能不是長期答案。這很誠實卻缺乏可操作性。

難題在于：每次范式轉(zhuǎn)移事后看像徒勞，但當(dāng)時是必要探索。我們無法跳過，只能祈禱有人更快找到出口。

更多閱讀：

Transformer已死？DeepMind正在押注另一條AGI路線

谷歌祭出Transformer殺手，8年首次大突破！掌門人劃出AGI死線

終結(jié)Transformer統(tǒng)治！清華姚班校友出手，劍指AI「災(zāi)難性遺忘」

一封來自Transformer之父的分手信：8年了！世界需要新的AI架構(gòu)

參考資料：

https://www.youtube.com/watch?v=DtePicx_kFY&t=1s

本文來自微信公眾號“新智元”，作者：新智元，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

錢大媽沖擊港股上市：解決損耗痛點后，如何突破增長困局？

125天風(fēng)波落幕：賈國龍與西貝的困局背后

喜茶炒蛋奶茶引爆話題，雞蛋或成2026飲品創(chuàng)意爆款？

寒潮降雪天氣安全防范指南

蘭州寒冬垃圾清運工作高效推進(jìn)

項目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<strike id="t55bf"><sup id="t55bf"></sup></strike>