欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

強(qiáng)化學(xué)習(xí)靈魂人物西爾弗,能否引領(lǐng)AI跨越LLM之谷?

02-20 06:12

本文源自微信公眾號“未盡研究”,作者為未盡研究,原標(biāo)題是《強(qiáng)化學(xué)習(xí)靈魂西爾弗,引領(lǐng)AI走出LLM之谷嗎|筆記》



強(qiáng)化學(xué)習(xí)領(lǐng)域的大神級人物大衛(wèi)·西爾弗(David Silver),于去年11月離開DeepMind后,其創(chuàng)辦的新公司正以40億美元估值推進(jìn)一輪高達(dá)10億美元的天使輪融資,紅杉資本領(lǐng)投,英偉達(dá)、谷歌、微軟等科技巨頭也在排隊(duì)參與投資。



西爾弗創(chuàng)立的這家名為“不可言喻的智能”(Ineffable Intelligence)的公司,核心研究方向是開發(fā)從經(jīng)驗(yàn)而非人類語言中學(xué)習(xí)的AI系統(tǒng),目標(biāo)是打造“一種能自我發(fā)現(xiàn)所有知識基礎(chǔ)的無限學(xué)習(xí)型超級智能”。



西爾弗曾公開批評當(dāng)前AI發(fā)展陷入“大語言模型之谷”。他堅(jiān)信,超大規(guī)模的強(qiáng)化學(xué)習(xí)是通向超人智能的清晰路徑,這一方法的有效性已通過Atari游戲、AlphaGo、AlphaZero等案例反復(fù)驗(yàn)證,同樣適用于強(qiáng)大的LLM先驗(yàn)?zāi)P停ㄈ鏏lphaProof)。他在2024年9月發(fā)表這一觀點(diǎn)后,可驗(yàn)證強(qiáng)化學(xué)習(xí)(RLVR)迅速成為技術(shù)主流,推動推理模型快速演進(jìn),在編程、數(shù)學(xué)等領(lǐng)域取得顯著突破。





2025年4月,西爾弗與強(qiáng)化學(xué)習(xí)之父、圖靈獎得主理查德·薩頓(Rich Sutton)聯(lián)合發(fā)表論文《歡迎來到經(jīng)驗(yàn)時(shí)代》,提出這個(gè)AI時(shí)代的核心特征是智能體與環(huán)境的互動——智能體將主要通過與經(jīng)驗(yàn)的交互學(xué)習(xí),而非僅依賴人類數(shù)據(jù);強(qiáng)大的智能體將像人類一樣,在長時(shí)尺度中持續(xù)學(xué)習(xí)新知識,最終達(dá)到超人類智能水平。



西爾弗曾長期擔(dān)任DeepMind首席研究科學(xué)家,是強(qiáng)化學(xué)習(xí)領(lǐng)域的標(biāo)志性人物。他主導(dǎo)了AlphaGo、AlphaZero的研發(fā),其中AlphaGo在與李世石對弈第二盤時(shí)落下的第37手,成為AI發(fā)展史上的“頓悟時(shí)刻”;AlphaZero更是通過無監(jiān)督學(xué)習(xí)在對弈領(lǐng)域?qū)崿F(xiàn)了超級智能,DeepSeek的R1 Zero被認(rèn)為是對AlphaZero的致敬之作。



即便在ChatGPT推出后、生成式AI由深度學(xué)習(xí)主導(dǎo)的時(shí)期,西爾弗對強(qiáng)化學(xué)習(xí)的信念也從未動搖。OpenAI負(fù)責(zé)推理模型的科學(xué)家諾姆·布朗(Noam Brown)曾在DeepMind實(shí)習(xí),參與過AlphaGo和AlphaZero項(xiàng)目,深受西爾弗影響。他延續(xù)強(qiáng)化學(xué)習(xí)思路,擴(kuò)展訓(xùn)練規(guī)模,為GPT模型構(gòu)建了“慢思考”推理框架。



DeepMind的強(qiáng)化學(xué)習(xí)與OpenAI的深度學(xué)習(xí)之爭,背后有著學(xué)術(shù)傳承的淵源:這是杰弗里·辛頓(Geoffery Hinton)與薩頓學(xué)派的較量——辛頓曾在加拿大東部的多倫多大學(xué)執(zhí)教,薩頓則在西部的阿爾伯塔大學(xué)研究;西爾弗與OpenAI前首席科學(xué)家伊利亞·蘇茨克維(Ilya Sutskever),恰好分別出自薩頓和辛頓門下。



伊利亞離開OpenAI創(chuàng)業(yè)后,成立了安全超級智能(SSI)公司,并宣稱“預(yù)訓(xùn)練已死”,將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合作為核心方向。



西爾弗與DeepMind創(chuàng)始人、諾貝爾獎得主德米斯·哈薩比斯(Damis Hassabis)相識于劍橋大學(xué)本科時(shí)期,他曾參與哈薩比斯創(chuàng)辦的萬靈藥游戲工作室,后來成為DeepMind最早的AI研究骨干。作為世界頂級AI科學(xué)家,西爾弗在倫敦大學(xué)學(xué)院擔(dān)任教授,是DeepMind發(fā)表論文最多的員工之一,論文引用量高達(dá)20萬次。



西爾弗與伊利亞、李飛飛、楊立昆的創(chuàng)業(yè),標(biāo)志著一批新型AI研究實(shí)驗(yàn)室的涌現(xiàn)。這些頂級AI實(shí)驗(yàn)室的首席科學(xué)家和核心研究者,正從強(qiáng)化學(xué)習(xí)與世界模型兩條路徑探索超越大語言模型的方向,以實(shí)現(xiàn)通用人工智能(AGI)或超級AI,且均獲得了風(fēng)險(xiǎn)資本與科技巨頭的追捧。例如李飛飛的世界實(shí)驗(yàn)室(World Labs),近期從a16z、英偉達(dá)、AMD等機(jī)構(gòu)融資10億美元,用于世界模型研究及機(jī)器人、科學(xué)探索領(lǐng)域的應(yīng)用開發(fā)。



楊立昆的AMI Labs近期也在以30億歐元(約35億美元)估值進(jìn)行5億歐元融資。至此,英國倫敦與法國巴黎各自擁有了兩家一流AI實(shí)驗(yàn)室,盡管背后主要風(fēng)險(xiǎn)資本來自美國,但歐洲已真正投入到AI的全球競爭中。



西爾弗因?qū)?qiáng)化學(xué)習(xí)的堅(jiān)定信念,被公認(rèn)為該領(lǐng)域的靈魂人物之一;而他的核心影響力,很大程度上源于能將復(fù)雜理論轉(zhuǎn)化為劃時(shí)代工程實(shí)踐的能力。這位AI先驅(qū)的新探索,值得在新的一年里持續(xù)關(guān)注與期待。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com