欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<rt id="on9fr"></rt>

Gemini 3新增智能體視覺能力以代碼執(zhí)行實現(xiàn)像素級圖像操控

01-29 07:18

Gemini 3 Flash推出Agentic Vision（智能體視覺）新功能，借助代碼執(zhí)行機制主動分析圖像，革新大語言模型的視覺理解方式。

【導讀】Google DeepMind為Gemini 3 Flash賦予智能體視覺能力，通過代碼執(zhí)行讓AI從被動看圖像轉(zhuǎn)向主動深度調(diào)查。

Google DeepMind剛為Gemini 3 Flash上線重量級能力——Agentic Vision（智能體視覺），這一技術(shù)徹底改變了大語言模型理解世界的模式：從過去的‘猜’變?yōu)槿缃竦摹疃日{(diào)查’。

該能力由Google DeepMind團隊打造，核心產(chǎn)品經(jīng)理Rohan Doshi介紹，傳統(tǒng)AI模型處理圖片時多為靜態(tài)觀察，遇到微芯片序列號、模糊路牌等細節(jié)時只能依賴猜測。而Agentic Vision引入‘思考-行動-觀察’閉環(huán)，讓模型能主動操縱圖像獲取清晰信息。

這項能力使Gemini 3 Flash在各類視覺基準測試中性能提升5%至10%。

Agentic Vision：智能體視覺新方向

DeepMind的方法核心是將代碼執(zhí)行作為視覺推理工具，把被動視覺理解轉(zhuǎn)化為主動智能體過程。當前SOTA模型通常一次性處理圖像，而Agentic Vision構(gòu)建了循環(huán)機制：

1.思考（Think）：模型分析用戶查詢與初始圖像，制定多步計劃。

2.行動（Act）：生成并執(zhí)行Python代碼，主動進行圖像裁剪、旋轉(zhuǎn)、標注或分析計算、計數(shù)邊界框等操作。

3.觀察（Observe）：變換后的圖像被添加到上下文窗口，讓模型在生成最終響應前獲取更充分的信息。

Agentic Vision實際應用

開啟API代碼執(zhí)行功能后，開發(fā)者可解鎖多種新行為，Google AI Studio的演示應用已展示相關(guān)效果：

1. 縮放檢查

Gemini 3 Flash能在檢測到細粒度細節(jié)時自動縮放。建筑計劃驗證平臺PlanCheckSolver.com啟用該功能后，通過迭代檢查高分辨率輸入，準確率提升5%。后臺日志顯示，模型生成Python代碼裁剪分析屋頂邊緣等特定區(qū)域，將結(jié)果追加到上下文以確認是否符合建筑規(guī)范。

2. 圖像標注

模型可通過標注與圖像交互。例如數(shù)Gemini應用中手上的數(shù)字時，它用Python在每個手指上繪制邊界框和數(shù)字標簽，以‘視覺草稿紙’確保答案基于像素級理解。

3. 視覺數(shù)學與繪圖

模型能解析高密度表格并執(zhí)行Python代碼可視化結(jié)果。標準LLM在多步視覺算術(shù)中易出錯，而Gemini 3 Flash通過確定性Python環(huán)境避免問題。演示中它識別原始數(shù)據(jù)，編寫代碼將SOTA結(jié)果歸一化為1.0，生成專業(yè)Matplotlib條形圖。

使用指南

Agentic Vision現(xiàn)已通過Google AI Studio和Vertex AI的Gemini API提供，也開始在Gemini應用中推出（從模型下拉菜單選Thinking訪問）。

以下是調(diào)用該能力的Python代碼示例：

fromgoogleimportgenai
fromgoogle.genaiimporttypes
client = genai.Client()
image = types.Part.from_uri(
file_uri="https://goo.gle/instrument-img",
mime_type="image/jpeg",
)
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents=[image,"Zoom into the expression pedals and tell me how many pedals are there?"],
config=types.GenerateContentConfig(
tools=[types.Tool(code_execution=types.ToolCodeExecution)]
),
)
print(response.text)

未來發(fā)展

Google表示Agentic Vision尚處初期階段。目前Gemini 3 Flash能自動判斷何時放大細節(jié)，旋轉(zhuǎn)圖像、視覺數(shù)學等功能需顯式提示觸發(fā)，未來將實現(xiàn)完全自動化。此外，團隊還在探索為模型添加網(wǎng)絡搜索、反向圖像搜索等工具，并計劃擴展到更多模型尺寸。

彩蛋：與DeepSeek的關(guān)聯(lián)？

值得注意的是，DeepSeek剛開源DeepSeek-OCR2，谷歌就發(fā)布了Agentic Vision，時間點巧合引發(fā)猜測。推測谷歌此次更新或受DeepSeek推動，理由如下：

1.時間契合：1月27日DeepSeek發(fā)布DeepSeek-OCR2，同日谷歌推出Agentic Vision，似在視覺技術(shù)競爭中回應。

2.技術(shù)路線競爭：DeepSeek-OCR2通過DeepEncoder V2讓AI按邏輯閱讀，谷歌則用代碼執(zhí)行實現(xiàn)主動操作，分別代表感知優(yōu)化與交互能力提升兩條路線。

3.定義機器視覺：DeepSeek-OCR2證明小模型優(yōu)化視覺邏輯可超越大模型，谷歌則以代碼執(zhí)行強化理解深度，雙方爭奪機器視覺的定義權(quán)。

無論是否為競爭驅(qū)動，這場技術(shù)比拼都將惠及開發(fā)者。

參考資料：

https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412

本文來自微信公眾號“新智元”，編輯：定慧，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

代孕風波下的張雨綺：商業(yè)版圖遭遇震蕩

長江投資（600119）2025年業(yè)績預虧或面臨退市風險警示

AI投資版圖重構(gòu)：北京穩(wěn)坐頭把交椅，長三角城市群崛起勢頭強勁

Clawdbot爆火背后：AI NAS賽道成隱形受益者，個人超級助手的新戰(zhàn)場

春晚舞臺上的具身智能：從流量爭奪到落地破局的關(guān)鍵之年

項目推薦

<rt id="dqynm"></rt>

<abbr id="dqynm"></abbr>