欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<li id="c0hfz"><strong id="c0hfz"></strong></li>

Harness Engineering：為AI Agent打造高效“鞍具”

03-03 06:39

本文來自微信公眾號(hào)：陸三金，作者：陸三金，原文標(biāo)題：《Harness Engineering：給Agent一副好馬鞍》

最近，你或許留意到了“Harness Engineering”這個(gè)詞。

你的第一反應(yīng)可能是疑惑：這是什么？

Prompt Engineering還在學(xué)習(xí)中，Context Engineering尚未完全搞懂，怎么又冒出個(gè)Harness Engineering。

而且這個(gè)詞該如何翻譯呢？

Harness的原意是馬具，這看起來和AI似乎沒什么關(guān)聯(lián)。

先別著急，我給你看一張圖，你就能明白。

也就是說，你為模型構(gòu)建的工具、文件、提示詞、鉤子、記憶系統(tǒng)等一系列元素，組合在一起就被稱為Harness。

模型原本像一匹野馬，有了這一套Harness，它就能聽從你的指令行事。

先來講一個(gè)令人意外的實(shí)驗(yàn)結(jié)果。2026年2月，LangChain團(tuán)隊(duì)對(duì)自家的coding agent進(jìn)行了測(cè)試。他們使用同一個(gè)模型GPT-5.2-Codex，僅僅修改了外圍的“套具”（harness），Terminal Bench 2.0的分?jǐn)?shù)就從52.8大幅提升到66.5，排名也從Top 30直接躍入Top 5。

沒錯(cuò)，馬還是那匹馬，換了個(gè)馬鞍，速度就完全不同了。

這就是Harness Engineering正在展現(xiàn)的力量。

如果把AI agent比作一匹烈馬，那么過去幾年的技術(shù)發(fā)展，讓騎手們逐漸明白一個(gè)道理：馴馬術(shù)有其極限，而馬鞍工藝才是決定能跑多遠(yuǎn)的關(guān)鍵。

2020年至2023年，是Prompt Engineering的黃金時(shí)期。所有人都在研究如何撰寫提示詞——用什么樣的措辭、格式和示例，能讓GPT-3或GPT-4給出更優(yōu)的回答。那時(shí)，prompt幾乎就是AI應(yīng)用的全部工程工作。

但到了2024年，情況發(fā)生了變化。模型變得越來越強(qiáng)大，應(yīng)用場(chǎng)景也從單次問答轉(zhuǎn)向多輪對(duì)話和長(zhǎng)時(shí)間任務(wù)。Anthropic的研究團(tuán)隊(duì)提出了一個(gè)新概念：Context Engineering（上下文工程）。他們認(rèn)為，隨著模型能力的提升，構(gòu)建AI應(yīng)用的核心問題已從“如何寫提示詞”轉(zhuǎn)變?yōu)椤笆裁礃拥呐渲米羁赡墚a(chǎn)生期望的行為”。

Context指的是模型采樣時(shí)獲取的所有token，包括系統(tǒng)提示、工具定義、外部數(shù)據(jù)、消息歷史等。Context Engineering就是在這個(gè)不斷擴(kuò)展的信息世界中，篩選出最小但信號(hào)最強(qiáng)的那部分token。

而Harness Engineering則是Context Engineering的自然延伸。它不僅關(guān)注“給模型看什么”，更關(guān)注“如何讓模型在查看過程中保持專注、自我糾正并持續(xù)前進(jìn)”。OpenAI、Anthropic、LangChain等幾乎所有頭部企業(yè)都在2025年至2026年間加大了對(duì)harness的投入。

這就像馬術(shù)史上的一個(gè)轉(zhuǎn)折點(diǎn)：人們發(fā)現(xiàn)，與其不斷訓(xùn)練馬匹的極限速度，不如設(shè)計(jì)更好的馬鞍、韁繩和馬蹄鐵，讓馬跑得既快又穩(wěn)。

說實(shí)話，這時(shí)我很想聽李宏毅講一堂Harness Engineering課程，他的課程里常有一句經(jīng)典話術(shù)：“本課程中，沒有模型被訓(xùn)練”，讓人很有安全感。我們不改動(dòng)模型，但能讓模型更聽我們的話。

那么，一副好的“harness”到底包含什么呢？

首先是Context Engineering的基礎(chǔ)設(shè)施。Manus團(tuán)隊(duì)在其經(jīng)典博客《AI代理的上下文工程：構(gòu)建Manus的經(jīng)驗(yàn)教訓(xùn)》中分享了一個(gè)關(guān)鍵發(fā)現(xiàn)：現(xiàn)代AI agent的輸入輸出token比例可達(dá)100:1。也就是說，模型每輸出一個(gè)token，可能要處理100個(gè)輸入token。這使得KV緩存（Key-Value Cache）變得至關(guān)重要——使用緩存后，Claude Sonnet的輸入成本可從3美元/百萬token降至0.3美元，相差整整10倍。

為了最大化緩存命中率，Manus團(tuán)隊(duì)總結(jié)了三條鐵律：保持提示前綴穩(wěn)定、讓上下文只追加不修改、在關(guān)鍵位置明確標(biāo)記緩存斷點(diǎn)。這些看似瑣碎的工程細(xì)節(jié)，決定了代理運(yùn)行的成本和速度。

其次是Progressive Disclosure（漸進(jìn)式披露）。這個(gè)概念最早源于1990年代Nielsen Norman Group的可用性研究——不要一次性向用戶展示所有信息，而是按需逐步呈現(xiàn)。三十年后，這一原則在AI代理中找到了新的應(yīng)用。

Anthropic的Claude Code提供了一個(gè)經(jīng)典案例。它的Skills功能采用三層架構(gòu)：

?第一層僅加載技能的名稱和描述（元數(shù)據(jù)）
?第二層在匹配到用戶需求時(shí)才加載完整技能內(nèi)容
?第三層則在執(zhí)行過程中按需引用支持文件。這種方式讓代理可以擁有數(shù)十個(gè)技能，但只為實(shí)際使用的那些付費(fèi)。

這就像去圖書館查資料。笨方法是把整個(gè)圖書館搬到桌子上再翻找；聰明的方法是先看書目索引，找到可能相關(guān)的書，再一本本取閱。代理也需要這樣的“索引系統(tǒng)”。

第三是Self-Verification（自我驗(yàn)證）。LangChain團(tuán)隊(duì)發(fā)現(xiàn)，模型最常見的失敗模式是：寫完代碼后，自己看一遍覺得“不錯(cuò)”就停止了，沒有測(cè)試、驗(yàn)證，也沒有對(duì)照需求文檔檢查。

他們的解決方案是在harness中強(qiáng)制加入驗(yàn)證循環(huán)：Plan（規(guī)劃）→Build（構(gòu)建）→Verify（驗(yàn)證）→Fix（修復(fù)）。更巧妙的是，他們?cè)谀Ｐ蜏?zhǔn)備退出時(shí)插入一個(gè)PreCompletionChecklistMiddleware，強(qiáng)制提醒代理“先別急著結(jié)束，跑一遍測(cè)試看看”。這個(gè)簡(jiǎn)單的鉤子，大幅減少了“自以為完成了”的幻覺。

最后是長(zhǎng)時(shí)間運(yùn)行的支撐架構(gòu)。當(dāng)代理需要工作數(shù)小時(shí)甚至數(shù)天時(shí)，單個(gè)上下文窗口顯然不夠。Anthropic的解決方案是雙代理架構(gòu)：Initializer Agent負(fù)責(zé)搭建環(huán)境，包括創(chuàng)建feature list、編寫init.sh腳本、進(jìn)行第一次git提交；Coding Agent則負(fù)責(zé)在每個(gè)會(huì)話中做增量推進(jìn)，留下清晰的進(jìn)度記錄和git commit。

feature list的設(shè)計(jì)尤為巧妙。Initializer Agent會(huì)把用戶需求拆解成200多個(gè)具體功能點(diǎn)，全部標(biāo)記為“未完成”。每個(gè)Coding Agent會(huì)話開始時(shí)，都會(huì)讀取這個(gè)列表，選擇優(yōu)先級(jí)最高的未完成項(xiàng)來工作。這避免了代理“一次性想做完所有事”或“看了眼代碼覺得差不多就宣布勝利”這兩種常見的失敗模式。

Harness Engineering的興起，標(biāo)志著AI工程正進(jìn)入一個(gè)新階段。

過去，人們把模型當(dāng)作黑盒魔法，認(rèn)為只要模型足夠強(qiáng)大，所有問題都能迎刃而解。但現(xiàn)在，行業(yè)逐漸認(rèn)識(shí)到一個(gè)事實(shí)：模型的原生智能是“尖刺狀的”（spiky）——在某些任務(wù)上表現(xiàn)出色，在另一些任務(wù)上卻會(huì)莫名其妙地失敗。Harness Engineering的目標(biāo)，就是打磨這些尖刺，讓模型的能力更平滑、更可控、更可靠。

這有點(diǎn)像攝影術(shù)的歷史。19世紀(jì)的攝影師癡迷于鏡頭工藝，追求更清晰的玻璃和更精準(zhǔn)的焦距。但到了20世紀(jì)，真正改變攝影的是哈蘇的模塊化設(shè)計(jì)、寶麗來的即拍即得以及數(shù)碼相機(jī)的傳感器優(yōu)化。相機(jī)還是那個(gè)相機(jī)，但“如何使用它”的工程學(xué)讓它走進(jìn)了千家萬戶。

AI代理正在經(jīng)歷類似的轉(zhuǎn)變。當(dāng)GPT-5、Claude 4、Gemini 3這些基礎(chǔ)模型趨于成熟時(shí)，競(jìng)爭(zhēng)的焦點(diǎn)正從“誰的模型更強(qiáng)”轉(zhuǎn)向“誰的harness更精巧”。

那么，Harness Engineering會(huì)走向何方呢？

我認(rèn)為有幾種可能性。

一種可能是標(biāo)準(zhǔn)化。就像Docker容器統(tǒng)一了應(yīng)用部署一樣，未來或許會(huì)出現(xiàn)Harness的標(biāo)準(zhǔn)格式，定義如何組織系統(tǒng)提示、管理工具、實(shí)現(xiàn)驗(yàn)證循環(huán)以及跨會(huì)話保持狀態(tài)。不同團(tuán)隊(duì)開發(fā)的代理可以共享harness組件，形成一個(gè)生態(tài)。

另一種可能是模型化。既然harness的設(shè)計(jì)如此依賴具體任務(wù)和模型特性，為什么不讓AI自己來優(yōu)化harness呢？我們可以想象一個(gè)元學(xué)習(xí)循環(huán)：代理執(zhí)行任務(wù)，產(chǎn)生軌跡，另一個(gè)“harness優(yōu)化代理”分析這些軌跡，提出harness改進(jìn)建議，甚至自動(dòng)生成新的中間件。這有點(diǎn)像編譯器優(yōu)化——人類編寫代碼，編譯器決定如何翻譯成機(jī)器指令。

還有一種可能是領(lǐng)域分化。代碼生成、科學(xué)研究、金融建模、創(chuàng)意設(shè)計(jì)等不同領(lǐng)域的harness可能會(huì)走向完全不同的方向。寫代碼需要嚴(yán)格的驗(yàn)證循環(huán)和測(cè)試覆蓋，做科研需要文獻(xiàn)檢索和假設(shè)追蹤，搞金融需要風(fēng)險(xiǎn)評(píng)估和合規(guī)檢查。沒有一套harness能適用于所有場(chǎng)景。

回到開頭的比喻。

好馬需要好鞍。這不是對(duì)馬的束縛，而是讓它跑得更遠(yuǎn)的工具。Harness Engineering的本質(zhì)，是承認(rèn)AI不是黑盒魔法，而是需要被理解、引導(dǎo)和約束的智能體。

當(dāng)AI代理從幾分鐘的對(duì)話轉(zhuǎn)向幾小時(shí)甚至幾天的自主工作時(shí)，harness的質(zhì)量將決定一切。它決定了代理會(huì)不會(huì)在半路迷失方向，會(huì)不會(huì)自以為完成了任務(wù)，會(huì)不會(huì)在跨會(huì)話時(shí)忘記之前做過什么。

LangChain的實(shí)驗(yàn)證明：同樣的模型，換一副“鞍具”，就能從Top 30沖進(jìn)Top 5。

這個(gè)差距，就是Harness Engineering的價(jià)值所在。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

舊梗重啟東南亞，非游戲App月入超百萬？

新研究揭示：常吃米飯或助體重穩(wěn)定？日本中年人控重飲食法，普通人也能輕松學(xué)

a16z領(lǐng)投200萬美元，Coverstar瞄準(zhǔn)北美Alpha世代打造安全社交新體驗(yàn)

布氏鯨遭漁船撞傷引爭(zhēng)議，生態(tài)旅游如何平衡保護(hù)與發(fā)展？

奧樂齊落子鎮(zhèn)江兩家門店籌備就緒將開業(yè)

項(xiàng)目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<menu id="xug4a"><dd id="xug4a"></dd></menu>

<ul id="xug4a"></ul>

<ruby id="xug4a"><strong id="xug4a"><address id="xug4a"></address></strong></ruby>