欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

Harness Engineering:為AI Agent打造高效“鞍具”

6分鐘前

本文來(lái)自微信公眾號(hào):陸三金,作者:陸三金,原文標(biāo)題:《Harness Engineering:給Agent一副好馬鞍》



最近,你或許留意到了“Harness Engineering”這個(gè)詞。



你的第一反應(yīng)可能是疑惑:這是什么?



Prompt Engineering還在學(xué)習(xí)中,Context Engineering尚未完全搞懂,怎么又冒出個(gè)Harness Engineering。



而且這個(gè)詞該如何翻譯呢?



Harness的原意是馬具,這看起來(lái)和AI似乎沒(méi)什么關(guān)聯(lián)。



先別著急,我給你看一張圖,你就能明白。




也就是說(shuō),你為模型構(gòu)建的工具、文件、提示詞、鉤子、記憶系統(tǒng)等一系列元素,組合在一起就被稱(chēng)為Harness。



模型原本像一匹野馬,有了這一套Harness,它就能聽(tīng)從你的指令行事。



先來(lái)講一個(gè)令人意外的實(shí)驗(yàn)結(jié)果。2026年2月,LangChain團(tuán)隊(duì)對(duì)自家的coding agent進(jìn)行了測(cè)試。他們使用同一個(gè)模型GPT-5.2-Codex,僅僅修改了外圍的“套具”(harness),Terminal Bench 2.0的分?jǐn)?shù)就從52.8大幅提升到66.5,排名也從Top 30直接躍入Top 5。




沒(méi)錯(cuò),馬還是那匹馬,換了個(gè)馬鞍,速度就完全不同了。



這就是Harness Engineering正在展現(xiàn)的力量。



如果把AI agent比作一匹烈馬,那么過(guò)去幾年的技術(shù)發(fā)展,讓騎手們逐漸明白一個(gè)道理:馴馬術(shù)有其極限,而馬鞍工藝才是決定能跑多遠(yuǎn)的關(guān)鍵。



2020年至2023年,是Prompt Engineering的黃金時(shí)期。所有人都在研究如何撰寫(xiě)提示詞——用什么樣的措辭、格式和示例,能讓GPT-3或GPT-4給出更優(yōu)的回答。那時(shí),prompt幾乎就是AI應(yīng)用的全部工程工作。



但到了2024年,情況發(fā)生了變化。模型變得越來(lái)越強(qiáng)大,應(yīng)用場(chǎng)景也從單次問(wèn)答轉(zhuǎn)向多輪對(duì)話(huà)和長(zhǎng)時(shí)間任務(wù)。Anthropic的研究團(tuán)隊(duì)提出了一個(gè)新概念:Context Engineering(上下文工程)。他們認(rèn)為,隨著模型能力的提升,構(gòu)建AI應(yīng)用的核心問(wèn)題已從“如何寫(xiě)提示詞”轉(zhuǎn)變?yōu)椤笆裁礃拥呐渲米羁赡墚a(chǎn)生期望的行為”。



Context指的是模型采樣時(shí)獲取的所有token,包括系統(tǒng)提示、工具定義、外部數(shù)據(jù)、消息歷史等。Context Engineering就是在這個(gè)不斷擴(kuò)展的信息世界中,篩選出最小但信號(hào)最強(qiáng)的那部分token。



而Harness Engineering則是Context Engineering的自然延伸。它不僅關(guān)注“給模型看什么”,更關(guān)注“如何讓模型在查看過(guò)程中保持專(zhuān)注、自我糾正并持續(xù)前進(jìn)”。OpenAI、Anthropic、LangChain等幾乎所有頭部企業(yè)都在2025年至2026年間加大了對(duì)harness的投入。



這就像馬術(shù)史上的一個(gè)轉(zhuǎn)折點(diǎn):人們發(fā)現(xiàn),與其不斷訓(xùn)練馬匹的極限速度,不如設(shè)計(jì)更好的馬鞍、韁繩和馬蹄鐵,讓馬跑得既快又穩(wěn)。



說(shuō)實(shí)話(huà),這時(shí)我很想聽(tīng)李宏毅講一堂Harness Engineering課程,他的課程里常有一句經(jīng)典話(huà)術(shù):“本課程中,沒(méi)有模型被訓(xùn)練”,讓人很有安全感。我們不改動(dòng)模型,但能讓模型更聽(tīng)我們的話(huà)。



那么,一副好的“harness”到底包含什么呢?



首先是Context Engineering的基礎(chǔ)設(shè)施。Manus團(tuán)隊(duì)在其經(jīng)典博客《AI代理的上下文工程:構(gòu)建Manus的經(jīng)驗(yàn)教訓(xùn)》中分享了一個(gè)關(guān)鍵發(fā)現(xiàn):現(xiàn)代AI agent的輸入輸出token比例可達(dá)100:1。也就是說(shuō),模型每輸出一個(gè)token,可能要處理100個(gè)輸入token。這使得KV緩存(Key-Value Cache)變得至關(guān)重要——使用緩存后,Claude Sonnet的輸入成本可從3美元/百萬(wàn)token降至0.3美元,相差整整10倍。





為了最大化緩存命中率,Manus團(tuán)隊(duì)總結(jié)了三條鐵律:保持提示前綴穩(wěn)定、讓上下文只追加不修改、在關(guān)鍵位置明確標(biāo)記緩存斷點(diǎn)。這些看似瑣碎的工程細(xì)節(jié),決定了代理運(yùn)行的成本和速度。



其次是Progressive Disclosure(漸進(jìn)式披露)。這個(gè)概念最早源于1990年代Nielsen Norman Group的可用性研究——不要一次性向用戶(hù)展示所有信息,而是按需逐步呈現(xiàn)。三十年后,這一原則在AI代理中找到了新的應(yīng)用。



Anthropic的Claude Code提供了一個(gè)經(jīng)典案例。它的Skills功能采用三層架構(gòu):



  • ?第一層僅加載技能的名稱(chēng)和描述(元數(shù)據(jù))



  • ?第二層在匹配到用戶(hù)需求時(shí)才加載完整技能內(nèi)容



  • ?第三層則在執(zhí)行過(guò)程中按需引用支持文件。這種方式讓代理可以擁有數(shù)十個(gè)技能,但只為實(shí)際使用的那些付費(fèi)。




這就像去圖書(shū)館查資料。笨方法是把整個(gè)圖書(shū)館搬到桌子上再翻找;聰明的方法是先看書(shū)目索引,找到可能相關(guān)的書(shū),再一本本取閱。代理也需要這樣的“索引系統(tǒng)”。



第三是Self-Verification(自我驗(yàn)證)。LangChain團(tuán)隊(duì)發(fā)現(xiàn),模型最常見(jiàn)的失敗模式是:寫(xiě)完代碼后,自己看一遍覺(jué)得“不錯(cuò)”就停止了,沒(méi)有測(cè)試、驗(yàn)證,也沒(méi)有對(duì)照需求文檔檢查。



他們的解決方案是在harness中強(qiáng)制加入驗(yàn)證循環(huán):Plan(規(guī)劃)→Build(構(gòu)建)→Verify(驗(yàn)證)→Fix(修復(fù))。更巧妙的是,他們?cè)谀P蜏?zhǔn)備退出時(shí)插入一個(gè)PreCompletionChecklistMiddleware,強(qiáng)制提醒代理“先別急著結(jié)束,跑一遍測(cè)試看看”。這個(gè)簡(jiǎn)單的鉤子,大幅減少了“自以為完成了”的幻覺(jué)。





最后是長(zhǎng)時(shí)間運(yùn)行的支撐架構(gòu)。當(dāng)代理需要工作數(shù)小時(shí)甚至數(shù)天時(shí),單個(gè)上下文窗口顯然不夠。Anthropic的解決方案是雙代理架構(gòu):Initializer Agent負(fù)責(zé)搭建環(huán)境,包括創(chuàng)建feature list、編寫(xiě)init.sh腳本、進(jìn)行第一次git提交;Coding Agent則負(fù)責(zé)在每個(gè)會(huì)話(huà)中做增量推進(jìn),留下清晰的進(jìn)度記錄和git commit。




feature list的設(shè)計(jì)尤為巧妙。Initializer Agent會(huì)把用戶(hù)需求拆解成200多個(gè)具體功能點(diǎn),全部標(biāo)記為“未完成”。每個(gè)Coding Agent會(huì)話(huà)開(kāi)始時(shí),都會(huì)讀取這個(gè)列表,選擇優(yōu)先級(jí)最高的未完成項(xiàng)來(lái)工作。這避免了代理“一次性想做完所有事”或“看了眼代碼覺(jué)得差不多就宣布勝利”這兩種常見(jiàn)的失敗模式。



Harness Engineering的興起,標(biāo)志著AI工程正進(jìn)入一個(gè)新階段。



過(guò)去,人們把模型當(dāng)作黑盒魔法,認(rèn)為只要模型足夠強(qiáng)大,所有問(wèn)題都能迎刃而解。但現(xiàn)在,行業(yè)逐漸認(rèn)識(shí)到一個(gè)事實(shí):模型的原生智能是“尖刺狀的”(spiky)——在某些任務(wù)上表現(xiàn)出色,在另一些任務(wù)上卻會(huì)莫名其妙地失敗。Harness Engineering的目標(biāo),就是打磨這些尖刺,讓模型的能力更平滑、更可控、更可靠。



這有點(diǎn)像攝影術(shù)的歷史。19世紀(jì)的攝影師癡迷于鏡頭工藝,追求更清晰的玻璃和更精準(zhǔn)的焦距。但到了20世紀(jì),真正改變攝影的是哈蘇的模塊化設(shè)計(jì)、寶麗來(lái)的即拍即得以及數(shù)碼相機(jī)的傳感器優(yōu)化。相機(jī)還是那個(gè)相機(jī),但“如何使用它”的工程學(xué)讓它走進(jìn)了千家萬(wàn)戶(hù)。



AI代理正在經(jīng)歷類(lèi)似的轉(zhuǎn)變。當(dāng)GPT-5、Claude 4、Gemini 3這些基礎(chǔ)模型趨于成熟時(shí),競(jìng)爭(zhēng)的焦點(diǎn)正從“誰(shuí)的模型更強(qiáng)”轉(zhuǎn)向“誰(shuí)的harness更精巧”。



那么,Harness Engineering會(huì)走向何方呢?



我認(rèn)為有幾種可能性。



一種可能是標(biāo)準(zhǔn)化。就像Docker容器統(tǒng)一了應(yīng)用部署一樣,未來(lái)或許會(huì)出現(xiàn)Harness的標(biāo)準(zhǔn)格式,定義如何組織系統(tǒng)提示、管理工具、實(shí)現(xiàn)驗(yàn)證循環(huán)以及跨會(huì)話(huà)保持狀態(tài)。不同團(tuán)隊(duì)開(kāi)發(fā)的代理可以共享harness組件,形成一個(gè)生態(tài)。



另一種可能是模型化。既然harness的設(shè)計(jì)如此依賴(lài)具體任務(wù)和模型特性,為什么不讓AI自己來(lái)優(yōu)化harness呢?我們可以想象一個(gè)元學(xué)習(xí)循環(huán):代理執(zhí)行任務(wù),產(chǎn)生軌跡,另一個(gè)“harness優(yōu)化代理”分析這些軌跡,提出harness改進(jìn)建議,甚至自動(dòng)生成新的中間件。這有點(diǎn)像編譯器優(yōu)化——人類(lèi)編寫(xiě)代碼,編譯器決定如何翻譯成機(jī)器指令。



還有一種可能是領(lǐng)域分化。代碼生成、科學(xué)研究、金融建模、創(chuàng)意設(shè)計(jì)等不同領(lǐng)域的harness可能會(huì)走向完全不同的方向。寫(xiě)代碼需要嚴(yán)格的驗(yàn)證循環(huán)和測(cè)試覆蓋,做科研需要文獻(xiàn)檢索和假設(shè)追蹤,搞金融需要風(fēng)險(xiǎn)評(píng)估和合規(guī)檢查。沒(méi)有一套harness能適用于所有場(chǎng)景。



回到開(kāi)頭的比喻。



好馬需要好鞍。這不是對(duì)馬的束縛,而是讓它跑得更遠(yuǎn)的工具。Harness Engineering的本質(zhì),是承認(rèn)AI不是黑盒魔法,而是需要被理解、引導(dǎo)和約束的智能體。



當(dāng)AI代理從幾分鐘的對(duì)話(huà)轉(zhuǎn)向幾小時(shí)甚至幾天的自主工作時(shí),harness的質(zhì)量將決定一切。它決定了代理會(huì)不會(huì)在半路迷失方向,會(huì)不會(huì)自以為完成了任務(wù),會(huì)不會(huì)在跨會(huì)話(huà)時(shí)忘記之前做過(guò)什么。



LangChain的實(shí)驗(yàn)證明:同樣的模型,換一副“鞍具”,就能從Top 30沖進(jìn)Top 5。



這個(gè)差距,就是Harness Engineering的價(jià)值所在。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com