Gemini 3新增智能體視覺能力 以代碼執(zhí)行實現(xiàn)像素級圖像操控
【導讀】Google DeepMind為Gemini 3 Flash賦予智能體視覺能力,通過代碼執(zhí)行讓AI從被動看圖像轉(zhuǎn)向主動深度調(diào)查。
Google DeepMind剛為Gemini 3 Flash上線重量級能力——Agentic Vision(智能體視覺),這一技術(shù)徹底改變了大語言模型理解世界的模式:從過去的‘猜’變?yōu)槿缃竦摹疃日{(diào)查’。

該能力由Google DeepMind團隊打造,核心產(chǎn)品經(jīng)理Rohan Doshi介紹,傳統(tǒng)AI模型處理圖片時多為靜態(tài)觀察,遇到微芯片序列號、模糊路牌等細節(jié)時只能依賴猜測。而Agentic Vision引入‘思考-行動-觀察’閉環(huán),讓模型能主動操縱圖像獲取清晰信息。

這項能力使Gemini 3 Flash在各類視覺基準測試中性能提升5%至10%。

Agentic Vision:智能體視覺新方向
DeepMind的方法核心是將代碼執(zhí)行作為視覺推理工具,把被動視覺理解轉(zhuǎn)化為主動智能體過程。當前SOTA模型通常一次性處理圖像,而Agentic Vision構(gòu)建了循環(huán)機制:
1.思考(Think):模型分析用戶查詢與初始圖像,制定多步計劃。
2.行動(Act):生成并執(zhí)行Python代碼,主動進行圖像裁剪、旋轉(zhuǎn)、標注或分析計算、計數(shù)邊界框等操作。
3.觀察(Observe):變換后的圖像被添加到上下文窗口,讓模型在生成最終響應前獲取更充分的信息。

Agentic Vision實際應用
開啟API代碼執(zhí)行功能后,開發(fā)者可解鎖多種新行為,Google AI Studio的演示應用已展示相關(guān)效果:
1. 縮放檢查
Gemini 3 Flash能在檢測到細粒度細節(jié)時自動縮放。建筑計劃驗證平臺PlanCheckSolver.com啟用該功能后,通過迭代檢查高分辨率輸入,準確率提升5%。后臺日志顯示,模型生成Python代碼裁剪分析屋頂邊緣等特定區(qū)域,將結(jié)果追加到上下文以確認是否符合建筑規(guī)范。

2. 圖像標注
模型可通過標注與圖像交互。例如數(shù)Gemini應用中手上的數(shù)字時,它用Python在每個手指上繪制邊界框和數(shù)字標簽,以‘視覺草稿紙’確保答案基于像素級理解。

3. 視覺數(shù)學與繪圖
模型能解析高密度表格并執(zhí)行Python代碼可視化結(jié)果。標準LLM在多步視覺算術(shù)中易出錯,而Gemini 3 Flash通過確定性Python環(huán)境避免問題。演示中它識別原始數(shù)據(jù),編寫代碼將SOTA結(jié)果歸一化為1.0,生成專業(yè)Matplotlib條形圖。

使用指南
Agentic Vision現(xiàn)已通過Google AI Studio和Vertex AI的Gemini API提供,也開始在Gemini應用中推出(從模型下拉菜單選Thinking訪問)。

以下是調(diào)用該能力的Python代碼示例:
- fromgoogleimportgenai
- fromgoogle.genaiimporttypes
- client = genai.Client()
- image = types.Part.from_uri(
- file_uri="https://goo.gle/instrument-img",
- mime_type="image/jpeg",
- )
- response = client.models.generate_content(
- model="gemini-3-flash-preview",
- contents=[image,"Zoom into the expression pedals and tell me how many pedals are there?"],
- config=types.GenerateContentConfig(
- tools=[types.Tool(code_execution=types.ToolCodeExecution)]
- ),
- )
- print(response.text)
未來發(fā)展
Google表示Agentic Vision尚處初期階段。目前Gemini 3 Flash能自動判斷何時放大細節(jié),旋轉(zhuǎn)圖像、視覺數(shù)學等功能需顯式提示觸發(fā),未來將實現(xiàn)完全自動化。此外,團隊還在探索為模型添加網(wǎng)絡搜索、反向圖像搜索等工具,并計劃擴展到更多模型尺寸。
彩蛋:與DeepSeek的關(guān)聯(lián)?
值得注意的是,DeepSeek剛開源DeepSeek-OCR2,谷歌就發(fā)布了Agentic Vision,時間點巧合引發(fā)猜測。推測谷歌此次更新或受DeepSeek推動,理由如下:
1.時間契合:1月27日DeepSeek發(fā)布DeepSeek-OCR2,同日谷歌推出Agentic Vision,似在視覺技術(shù)競爭中回應。
2.技術(shù)路線競爭:DeepSeek-OCR2通過DeepEncoder V2讓AI按邏輯閱讀,谷歌則用代碼執(zhí)行實現(xiàn)主動操作,分別代表感知優(yōu)化與交互能力提升兩條路線。
3.定義機器視覺:DeepSeek-OCR2證明小模型優(yōu)化視覺邏輯可超越大模型,谷歌則以代碼執(zhí)行強化理解深度,雙方爭奪機器視覺的定義權(quán)。
無論是否為競爭驅(qū)動,這場技術(shù)比拼都將惠及開發(fā)者。
參考資料:
https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412
本文來自微信公眾號“新智元”,編輯:定慧,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




