Gemini新模型上線:編程能力全球排名第八,清華姚順宇參與研發(fā)
北京時間周五凌晨,谷歌推出了Gemini 3 Deep Think的重大更新版本。作為專注于復(fù)雜任務(wù)的推理模式,Deep Think代表著AI領(lǐng)域前沿的最高智能水平,目標(biāo)是解決科學(xué)與工程領(lǐng)域的各類難題。

去年9月加入Google DeepMind的清華物理系傳奇人物姚順宇(Shunyu Yao),也是此次Deep Think新模型的研發(fā)參與者之一。

去年,谷歌曾展示過專門開發(fā)的Deep Think版本,它能成功應(yīng)對一些極具挑戰(zhàn)性的推理任務(wù),還在數(shù)學(xué)和編程世界錦標(biāo)賽中斬獲金牌。近期,Deep Think又助力專門研發(fā)的智能體開展研究級別的數(shù)學(xué)探索工作。
經(jīng)過更新的深度思考模式持續(xù)拓展智能邊界,在嚴(yán)苛的學(xué)術(shù)基準(zhǔn)測試中創(chuàng)下新紀(jì)錄,具體包括:
在用于測試現(xiàn)代前沿模型極限的「人類的最后考試」基準(zhǔn)測試中,該模型取得了48.4%的全新SOTA成績(不借助任何工具)。
在ARC-AGI-2測試中獲得了84.6%的歷史最高分,且該成績已通過ARC Prize基金會驗(yàn)證。
在包含多種競技編程挑戰(zhàn)的Codeforces平臺上,取得了3455 Elo的出色分?jǐn)?shù)。
在2025年國際數(shù)學(xué)奧林匹克競賽中達(dá)到金牌水平。

新版Gemini 3 Deep Think在ARC-AGI-1測試中的成績?yōu)?6.0%,單任務(wù)成本7.17美元;在ARC-AGI-2測試中更是達(dá)到84.6%的分?jǐn)?shù),單任務(wù)成本13.62美元。

約14個月前,OpenAI的o3-preview模型「高計(jì)算」版本在ARC-AGI-1測試中僅獲得約88%的分?jǐn)?shù),單任務(wù)成本高達(dá)2000至3000美元。而Gemini 3 Deep Think的單任務(wù)成本僅7.17美元,成本降低了約280至420倍。
這表明我們需要為AI設(shè)計(jì)更復(fù)雜的測試題目了。
除了在數(shù)學(xué)和編程競賽中的優(yōu)異表現(xiàn),Gemini 3 Deep Think如今在化學(xué)、物理等廣泛的科學(xué)領(lǐng)域也表現(xiàn)突出。更新后的Deep Think模式在2025年國際物理奧林匹克競賽和化學(xué)奧林匹克競賽的筆試部分均取得金牌級成績。它還展現(xiàn)出在高等理論物理方面的能力,在CMT-Benchmark測試中獲得50.5%的分?jǐn)?shù)。

尤其值得一提的是它在Codeforces上獲得的3455分,這意味著Gemini 3 Deep Think已達(dá)到世界排名第八的頂尖競技程序員水平。此前的最佳成績是一年多前OpenAI o3取得的2727分,當(dāng)時排名第175位。
目前全球僅有7人能在編程比賽中戰(zhàn)勝Gemini 3 Deep Think。

對于AI及整個科技領(lǐng)域而言,這是一項(xiàng)以往難以想象的成就。
谷歌與科學(xué)家和研究人員密切合作,完成了Gemini 3 Deep Think的升級。Deep Think將深厚的科學(xué)知識與日常工程實(shí)踐相結(jié)合,突破抽象理論的限制,推動實(shí)際應(yīng)用的發(fā)展。
借助更新后的Deep Think,用戶可以將草圖轉(zhuǎn)化為可3D打印的實(shí)體模型。Deep Think會分析圖紙,對復(fù)雜形狀進(jìn)行建模,并生成用于3D打印的實(shí)體文件。

谷歌展示了部分早期測試用戶使用最新版Deep Think的成果:
羅格斯大學(xué)的數(shù)學(xué)家Lisa Carbone致力于研究高能物理學(xué)所需的數(shù)學(xué)結(jié)構(gòu),以填補(bǔ)愛因斯坦引力理論與量子力學(xué)之間的鴻溝。由于該領(lǐng)域缺乏大量訓(xùn)練數(shù)據(jù),她借助Deep Think技術(shù)審閱了一篇高度專業(yè)的數(shù)學(xué)論文。Deep Think成功識別出一個細(xì)微的邏輯缺陷,而這個缺陷此前在人工同行評審中均未被發(fā)現(xiàn)。
在杜克大學(xué),Haozhe "Harry" Wang帶領(lǐng)的實(shí)驗(yàn)室利用Deep Think技術(shù)優(yōu)化復(fù)雜晶體生長的制備方法,希望發(fā)現(xiàn)新的半導(dǎo)體材料。Deep Think成功設(shè)計(jì)出一種能生長厚度超過100微米薄膜的工藝,達(dá)到了以往方法難以實(shí)現(xiàn)的精確目標(biāo)。
或許隨著更多用戶的使用,我們很快就能基于Gemini 3 Deep Think實(shí)現(xiàn)更多科研突破。
全新的Deep Think已在Gemini應(yīng)用中上線,目前Google AI Ultra訂閱用戶可使用。此外,谷歌首次通過Gemini API向部分研究人員、工程師和企業(yè)開放Deep Think的使用權(quán)限。
參考內(nèi)容:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
https://x.com/shaneguML/status/2021999801911718029
本文來自微信公眾號“機(jī)器之心”,編輯:澤南,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




