欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

Harness如何重塑Token經(jīng)濟(jì)學(xué)

04-01 06:36

本文來自微信公眾號:未盡研究,作者:未盡研究



過去兩年,關(guān)于大模型商業(yè)模式的討論,常被簡化為“每百萬token多少錢”的問題。行業(yè)內(nèi)最常見的比較方式,也變成了誰更便宜、誰更省、誰更適合大規(guī)模調(diào)用。



然而,當(dāng)智能體逐漸發(fā)展為長時(shí)運(yùn)行、分工協(xié)作、反復(fù)評估的系統(tǒng)后,token的價(jià)值衡量單位正發(fā)生“偏移”。評估一個(gè)模型,除了生成一段文本的成本,更要關(guān)注完成一個(gè)任務(wù)的最終可靠成本,且后者的重要性日益凸顯。



Anthropic近期的一篇工程文章探討了如何為長時(shí)間應(yīng)用開發(fā)設(shè)計(jì)智能體。將單智能體與全套harness在同一任務(wù)中對比:用Claude Opus 4.5制作2D復(fù)古游戲制作器時(shí),單智能體運(yùn)行20分鐘,成本9美元;全套harness運(yùn)行6小時(shí),成本200美元,表面看貴了二十多倍。



但二者的差異遠(yuǎn)不止“貴與慢”,而是結(jié)果層級的本質(zhì)不同。單智能體雖做出界面,試玩時(shí)核心游戲邏輯卻存在問題,實(shí)體不響應(yīng)輸入;全套harness則將一句話需求擴(kuò)展為16個(gè)功能點(diǎn)、10個(gè)迭代周期的完整規(guī)格,還實(shí)現(xiàn)了動畫、行為模板、音效、AI輔助生成及導(dǎo)出分享等可用功能。



這一對比揭示了智能體時(shí)代的新經(jīng)濟(jì)學(xué)事實(shí):token的主要用途不再是“生成內(nèi)容”,而是讓看似完成的演示真正可用。





也就是說,harness正推動我們從token單價(jià)轉(zhuǎn)向結(jié)果單價(jià)。舊范式中,一次調(diào)用對應(yīng)一輪問答,token成本與輸出長度大致相關(guān),價(jià)格越低越有優(yōu)勢。但當(dāng)任務(wù)涉及長時(shí)軟件開發(fā)、復(fù)雜工具調(diào)用和多輪自我修正時(shí),成本的決定因素不再是模型輸出字?jǐn)?shù),而是系統(tǒng)為獲得可靠結(jié)果所經(jīng)歷的規(guī)劃、執(zhí)行、測試、返工和重新生成的輪次。具體而言,上下文重置雖能緩解長任務(wù)中的一致性崩塌和“上下文焦慮”,卻需付出額外的調(diào)度復(fù)雜性、token開銷和延遲代價(jià)??梢?,harness并非免費(fèi)的工程包裝,而是增加token消耗的結(jié)構(gòu)性投資。



這引出了harness改變token經(jīng)濟(jì)學(xué)的第一重機(jī)制:將token從內(nèi)容成本轉(zhuǎn)變?yōu)榭刂瞥杀尽?/p>



在Anthropic的前端設(shè)計(jì)實(shí)驗(yàn)中,生成器與評估器形成循環(huán),評估器通過Playwright MCP實(shí)際操作頁面、截圖、打分,再將反饋傳遞給生成器。這種循環(huán)通常運(yùn)行5到15輪,完整一次可持續(xù)四小時(shí)。這里消耗的大量token,并非為了讓模型多生成HTML內(nèi)容,而是讓模型在可驗(yàn)證的反饋回路中不斷調(diào)整,逼近更優(yōu)答案。token的作用從一次性生成轉(zhuǎn)向長程控制、外部校驗(yàn)和方向修正,它購買的不是文本,而是達(dá)成目標(biāo)的路徑。



進(jìn)一步看,harness還重新排列了token在整個(gè)工作流中的分布。數(shù)字音樂站(DAW)實(shí)驗(yàn)的賬單數(shù)據(jù)頗具啟發(fā)性:在復(fù)雜智能體式編碼系統(tǒng)中,真正消耗預(yù)算的是“生成”環(huán)節(jié),但決定這筆大額支出是否有效的,卻是相對少量的規(guī)劃和驗(yàn)證開銷。便宜的規(guī)劃器與評估器,在某種程度上成為昂貴構(gòu)建器的“資本監(jiān)督者”。因此,token經(jīng)濟(jì)學(xué)需要用少量監(jiān)督token約束大量生成token,避免浪費(fèi)。





這正是harness改寫成本結(jié)構(gòu)的關(guān)鍵。過去,質(zhì)量保障(QA)、規(guī)劃、代碼審查看作模型之外的附屬環(huán)節(jié),如今它們本身成為token消費(fèi)和產(chǎn)出質(zhì)量的一部分。且評估器發(fā)現(xiàn)的并非表面瑕疵,而是直接導(dǎo)致功能失效的深層bug,如拖拽填充未觸發(fā)、刪除條件判斷錯(cuò)誤、API路由順序引發(fā)422返回等。



單智能體的最大問題,不是風(fēng)格不夠美觀,而是生成看似成功、實(shí)際邏輯不通的“偽成品”。harness的作用,就是用額外token打破這種“偽完成”,讓系統(tǒng)從演示性產(chǎn)出轉(zhuǎn)向可驗(yàn)證產(chǎn)出。于是,token的邊際價(jià)值也發(fā)生改變:最貴的token未必最重要,能減少返工和幻覺的token才最有價(jià)值。



harness的價(jià)值并非固定不變。隨著Claude Opus 4.6發(fā)布,作者開始拆除4.5時(shí)期關(guān)鍵的腳手架。Opus 4.6更擅長規(guī)劃、維持長時(shí)智能體任務(wù)、在大代碼庫中穩(wěn)定工作,也更精通代碼審核和除bug。因此,原先依賴迭代拆解和頻繁評估器介入的結(jié)構(gòu)被簡化。對于Opus 4.6能力范圍內(nèi)的任務(wù),評估器成為不必要的開銷。這說明harness并非越多越好,僅在模型能力邊界附近最具經(jīng)濟(jì)價(jià)值。一旦模型內(nèi)生掌握某些能力,原先補(bǔ)償功能的harness組件就會從“投資”變?yōu)椤柏?fù)擔(dān)”。



由此,harness改變token經(jīng)濟(jì)學(xué)的第二重機(jī)制,是讓成本結(jié)構(gòu)成為動態(tài)、邊界驅(qū)動的模式。



每個(gè)harness組件本質(zhì)上都基于一個(gè)假設(shè):模型單獨(dú)無法做好這件事,需用外部結(jié)構(gòu)補(bǔ)充。這些組件體現(xiàn)了對模型能力局限的判斷,而這些判斷需不斷測試,因?yàn)槟P瓦M(jìn)步迅速,舊假設(shè)會很快過時(shí)。所以,今天值得花費(fèi)的token,明天可能就不再值得。token經(jīng)濟(jì)學(xué)不再是固定價(jià)目表,更像隨模型能力變化的邊際收益曲線。



結(jié)合商業(yè)背景看,變化更清晰。Anthropic當(dāng)前官方定價(jià)已開始對低延遲、合規(guī)性和高能力單獨(dú)收費(fèi)。Claude Opus 4.6的快速模式是標(biāo)準(zhǔn)價(jià)的6倍,輸入和輸出每百萬token分別為30美元和150美元;若要求美國境內(nèi)推理,所有token類別加收1.1倍費(fèi)用。OpenAI也在采取類似策略。



再看OpenAI,GPT-5.4標(biāo)準(zhǔn)短上下文輸入每百萬token 2.50美元,輸出15美元,部分區(qū)域處理加收10%;同時(shí),內(nèi)建工具消耗的token按所選模型費(fèi)率計(jì)費(fèi)。這背后的商業(yè)邏輯是:智能體時(shí)代,用戶購買的不僅是“文本生成”,還有速度、驗(yàn)證、工具調(diào)用、地域處理和長時(shí)執(zhí)行等系統(tǒng)能力。harness越為主流,token就越像生產(chǎn)流程中的通用燃料,而非聊天接口的字?jǐn)?shù)費(fèi)用。



那么,harness究竟如何改變token經(jīng)濟(jì)學(xué)?它將token從靜態(tài)計(jì)量單位轉(zhuǎn)變?yōu)閯討B(tài)組織資源。過去關(guān)注一次調(diào)用的token用量,現(xiàn)在則關(guān)注這些token在規(guī)劃、生成、驗(yàn)證、返工和工具調(diào)用各環(huán)節(jié)的分配,以及它們是否減少失敗、提升完成率、將“像樣的結(jié)果”轉(zhuǎn)化為“可交付的結(jié)果”。



從這個(gè)角度看,未來最重要的價(jià)格指標(biāo),或許不再是每百萬token單價(jià),而是完成一個(gè)真實(shí)任務(wù)的總成本、減少一次返工節(jié)省的預(yù)算,以及提高一個(gè)百分點(diǎn)成功率所需的邊際token。行業(yè)真正在意的,并非harness比單智能體更貴,而是智能體時(shí)代真正昂貴的從來不是token本身,而是失敗、返工和偽完成。harness的重要性,不在于它增加了token消耗,而在于它開始決定哪些token值得花費(fèi),哪些只是無謂消耗。



最后,理解了harness與token經(jīng)濟(jì)學(xué)的關(guān)系,你還會爭論大模型和harness哪個(gè)更重要嗎?



--



參考:



https://www.anthropic.com/engineering/harness-design-long-running-apps



https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com