欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

Gemini新模型上線：編程能力全球排名第八，清華姚順宇參與研發(fā)

02-14 06:15

AI基準(zhǔn)測試再度面臨挑戰(zhàn)，如今的AI已不能再簡單視為工具，或許該稱其為「硅基博學(xué)家」了。

北京時間周五凌晨，谷歌推出了Gemini 3 Deep Think的重大更新版本。作為專注于復(fù)雜任務(wù)的推理模式，Deep Think代表著AI領(lǐng)域前沿的最高智能水平，目標(biāo)是解決科學(xué)與工程領(lǐng)域的各類難題。

去年9月加入Google DeepMind的清華物理系傳奇人物姚順宇（Shunyu Yao），也是此次Deep Think新模型的研發(fā)參與者之一。

去年，谷歌曾展示過專門開發(fā)的Deep Think版本，它能成功應(yīng)對一些極具挑戰(zhàn)性的推理任務(wù)，還在數(shù)學(xué)和編程世界錦標(biāo)賽中斬獲金牌。近期，Deep Think又助力專門研發(fā)的智能體開展研究級別的數(shù)學(xué)探索工作。

經(jīng)過更新的深度思考模式持續(xù)拓展智能邊界，在嚴(yán)苛的學(xué)術(shù)基準(zhǔn)測試中創(chuàng)下新紀(jì)錄，具體包括：

在用于測試現(xiàn)代前沿模型極限的「人類的最后考試」基準(zhǔn)測試中，該模型取得了48.4%的全新SOTA成績（不借助任何工具）。

在ARC-AGI-2測試中獲得了84.6%的歷史最高分，且該成績已通過ARC Prize基金會驗(yàn)證。

在包含多種競技編程挑戰(zhàn)的Codeforces平臺上，取得了3455 Elo的出色分?jǐn)?shù)。

在2025年國際數(shù)學(xué)奧林匹克競賽中達(dá)到金牌水平。

新版Gemini 3 Deep Think在ARC-AGI-1測試中的成績?yōu)?6.0%，單任務(wù)成本7.17美元；在ARC-AGI-2測試中更是達(dá)到84.6%的分?jǐn)?shù)，單任務(wù)成本13.62美元。

約14個月前，OpenAI的o3-preview模型「高計(jì)算」版本在ARC-AGI-1測試中僅獲得約88%的分?jǐn)?shù)，單任務(wù)成本高達(dá)2000至3000美元。而Gemini 3 Deep Think的單任務(wù)成本僅7.17美元，成本降低了約280至420倍。

這表明我們需要為AI設(shè)計(jì)更復(fù)雜的測試題目了。

除了在數(shù)學(xué)和編程競賽中的優(yōu)異表現(xiàn)，Gemini 3 Deep Think如今在化學(xué)、物理等廣泛的科學(xué)領(lǐng)域也表現(xiàn)突出。更新后的Deep Think模式在2025年國際物理奧林匹克競賽和化學(xué)奧林匹克競賽的筆試部分均取得金牌級成績。它還展現(xiàn)出在高等理論物理方面的能力，在CMT-Benchmark測試中獲得50.5%的分?jǐn)?shù)。

尤其值得一提的是它在Codeforces上獲得的3455分，這意味著Gemini 3 Deep Think已達(dá)到世界排名第八的頂尖競技程序員水平。此前的最佳成績是一年多前OpenAI o3取得的2727分，當(dāng)時排名第175位。

目前全球僅有7人能在編程比賽中戰(zhàn)勝Gemini 3 Deep Think。

對于AI及整個科技領(lǐng)域而言，這是一項(xiàng)以往難以想象的成就。

谷歌與科學(xué)家和研究人員密切合作，完成了Gemini 3 Deep Think的升級。Deep Think將深厚的科學(xué)知識與日常工程實(shí)踐相結(jié)合，突破抽象理論的限制，推動實(shí)際應(yīng)用的發(fā)展。

借助更新后的Deep Think，用戶可以將草圖轉(zhuǎn)化為可3D打印的實(shí)體模型。Deep Think會分析圖紙，對復(fù)雜形狀進(jìn)行建模，并生成用于3D打印的實(shí)體文件。

谷歌展示了部分早期測試用戶使用最新版Deep Think的成果：

羅格斯大學(xué)的數(shù)學(xué)家Lisa Carbone致力于研究高能物理學(xué)所需的數(shù)學(xué)結(jié)構(gòu)，以填補(bǔ)愛因斯坦引力理論與量子力學(xué)之間的鴻溝。由于該領(lǐng)域缺乏大量訓(xùn)練數(shù)據(jù)，她借助Deep Think技術(shù)審閱了一篇高度專業(yè)的數(shù)學(xué)論文。Deep Think成功識別出一個細(xì)微的邏輯缺陷，而這個缺陷此前在人工同行評審中均未被發(fā)現(xiàn)。

在杜克大學(xué)，Haozhe "Harry" Wang帶領(lǐng)的實(shí)驗(yàn)室利用Deep Think技術(shù)優(yōu)化復(fù)雜晶體生長的制備方法，希望發(fā)現(xiàn)新的半導(dǎo)體材料。Deep Think成功設(shè)計(jì)出一種能生長厚度超過100微米薄膜的工藝，達(dá)到了以往方法難以實(shí)現(xiàn)的精確目標(biāo)。

或許隨著更多用戶的使用，我們很快就能基于Gemini 3 Deep Think實(shí)現(xiàn)更多科研突破。

全新的Deep Think已在Gemini應(yīng)用中上線，目前Google AI Ultra訂閱用戶可使用。此外，谷歌首次通過Gemini API向部分研究人員、工程師和企業(yè)開放Deep Think的使用權(quán)限。

參考內(nèi)容：

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://x.com/shaneguML/status/2021999801911718029

本文來自微信公眾號“機(jī)器之心”，編輯：澤南，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

年輕人“手搓”熱潮：萬億情緒經(jīng)濟(jì)下的個體創(chuàng)造力覺醒

孫龍：從零出發(fā)，全力備戰(zhàn)米蘭冬奧剩余三項(xiàng)關(guān)鍵賽事

2026北京臺春晚語言類節(jié)目：煙火氣里的歡樂與京味兒

北京各大影院全面籌備2026年春節(jié)檔年味十足優(yōu)惠多

2026中國AI戰(zhàn)局：存量博弈、增量突圍與變量破局的深度較量

項(xiàng)目推薦

<tt id="eeeka"><listing id="eeeka"></listing></tt>