欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<dd id="e25ny"><address id="e25ny"></address></dd>

<option id="e25ny"></option>

Harness如何重塑Token經(jīng)濟(jì)學(xué)

04-01 06:36

本文來自微信公眾號：未盡研究，作者：未盡研究

過去兩年，關(guān)于大模型商業(yè)模式的討論，常被簡化為“每百萬token多少錢”的問題。行業(yè)內(nèi)最常見的比較方式，也變成了誰更便宜、誰更省、誰更適合大規(guī)模調(diào)用。

然而，當(dāng)智能體逐漸發(fā)展為長時(shí)運(yùn)行、分工協(xié)作、反復(fù)評估的系統(tǒng)后，token的價(jià)值衡量單位正發(fā)生“偏移”。評估一個(gè)模型，除了生成一段文本的成本，更要關(guān)注完成一個(gè)任務(wù)的最終可靠成本，且后者的重要性日益凸顯。

Anthropic近期的一篇工程文章探討了如何為長時(shí)間應(yīng)用開發(fā)設(shè)計(jì)智能體。將單智能體與全套harness在同一任務(wù)中對比：用Claude Opus 4.5制作2D復(fù)古游戲制作器時(shí)，單智能體運(yùn)行20分鐘，成本9美元；全套harness運(yùn)行6小時(shí)，成本200美元，表面看貴了二十多倍。

但二者的差異遠(yuǎn)不止“貴與慢”，而是結(jié)果層級的本質(zhì)不同。單智能體雖做出界面，試玩時(shí)核心游戲邏輯卻存在問題，實(shí)體不響應(yīng)輸入；全套harness則將一句話需求擴(kuò)展為16個(gè)功能點(diǎn)、10個(gè)迭代周期的完整規(guī)格，還實(shí)現(xiàn)了動畫、行為模板、音效、AI輔助生成及導(dǎo)出分享等可用功能。

這一對比揭示了智能體時(shí)代的新經(jīng)濟(jì)學(xué)事實(shí)：token的主要用途不再是“生成內(nèi)容”，而是讓看似完成的演示真正可用。

也就是說，harness正推動我們從token單價(jià)轉(zhuǎn)向結(jié)果單價(jià)。舊范式中，一次調(diào)用對應(yīng)一輪問答，token成本與輸出長度大致相關(guān)，價(jià)格越低越有優(yōu)勢。但當(dāng)任務(wù)涉及長時(shí)軟件開發(fā)、復(fù)雜工具調(diào)用和多輪自我修正時(shí)，成本的決定因素不再是模型輸出字?jǐn)?shù)，而是系統(tǒng)為獲得可靠結(jié)果所經(jīng)歷的規(guī)劃、執(zhí)行、測試、返工和重新生成的輪次。具體而言，上下文重置雖能緩解長任務(wù)中的一致性崩塌和“上下文焦慮”，卻需付出額外的調(diào)度復(fù)雜性、token開銷和延遲代價(jià)?？梢?，harness并非免費(fèi)的工程包裝，而是增加token消耗的結(jié)構(gòu)性投資。

這引出了harness改變token經(jīng)濟(jì)學(xué)的第一重機(jī)制：將token從內(nèi)容成本轉(zhuǎn)變?yōu)榭刂瞥杀尽?/p>

在Anthropic的前端設(shè)計(jì)實(shí)驗(yàn)中，生成器與評估器形成循環(huán)，評估器通過Playwright MCP實(shí)際操作頁面、截圖、打分，再將反饋傳遞給生成器。這種循環(huán)通常運(yùn)行5到15輪，完整一次可持續(xù)四小時(shí)。這里消耗的大量token，并非為了讓模型多生成HTML內(nèi)容，而是讓模型在可驗(yàn)證的反饋回路中不斷調(diào)整，逼近更優(yōu)答案。token的作用從一次性生成轉(zhuǎn)向長程控制、外部校驗(yàn)和方向修正，它購買的不是文本，而是達(dá)成目標(biāo)的路徑。

進(jìn)一步看，harness還重新排列了token在整個(gè)工作流中的分布。數(shù)字音樂站（DAW）實(shí)驗(yàn)的賬單數(shù)據(jù)頗具啟發(fā)性：在復(fù)雜智能體式編碼系統(tǒng)中，真正消耗預(yù)算的是“生成”環(huán)節(jié)，但決定這筆大額支出是否有效的，卻是相對少量的規(guī)劃和驗(yàn)證開銷。便宜的規(guī)劃器與評估器，在某種程度上成為昂貴構(gòu)建器的“資本監(jiān)督者”。因此，token經(jīng)濟(jì)學(xué)需要用少量監(jiān)督token約束大量生成token，避免浪費(fèi)。

這正是harness改寫成本結(jié)構(gòu)的關(guān)鍵。過去，質(zhì)量保障（QA）、規(guī)劃、代碼審查看作模型之外的附屬環(huán)節(jié)，如今它們本身成為token消費(fèi)和產(chǎn)出質(zhì)量的一部分。且評估器發(fā)現(xiàn)的并非表面瑕疵，而是直接導(dǎo)致功能失效的深層bug，如拖拽填充未觸發(fā)、刪除條件判斷錯(cuò)誤、API路由順序引發(fā)422返回等。

單智能體的最大問題，不是風(fēng)格不夠美觀，而是生成看似成功、實(shí)際邏輯不通的“偽成品”。harness的作用，就是用額外token打破這種“偽完成”，讓系統(tǒng)從演示性產(chǎn)出轉(zhuǎn)向可驗(yàn)證產(chǎn)出。于是，token的邊際價(jià)值也發(fā)生改變：最貴的token未必最重要，能減少返工和幻覺的token才最有價(jià)值。

harness的價(jià)值并非固定不變。隨著Claude Opus 4.6發(fā)布，作者開始拆除4.5時(shí)期關(guān)鍵的腳手架。Opus 4.6更擅長規(guī)劃、維持長時(shí)智能體任務(wù)、在大代碼庫中穩(wěn)定工作，也更精通代碼審核和除bug。因此，原先依賴迭代拆解和頻繁評估器介入的結(jié)構(gòu)被簡化。對于Opus 4.6能力范圍內(nèi)的任務(wù)，評估器成為不必要的開銷。這說明harness并非越多越好，僅在模型能力邊界附近最具經(jīng)濟(jì)價(jià)值。一旦模型內(nèi)生掌握某些能力，原先補(bǔ)償功能的harness組件就會從“投資”變?yōu)椤柏?fù)擔(dān)”。

由此，harness改變token經(jīng)濟(jì)學(xué)的第二重機(jī)制，是讓成本結(jié)構(gòu)成為動態(tài)、邊界驅(qū)動的模式。

每個(gè)harness組件本質(zhì)上都基于一個(gè)假設(shè)：模型單獨(dú)無法做好這件事，需用外部結(jié)構(gòu)補(bǔ)充。這些組件體現(xiàn)了對模型能力局限的判斷，而這些判斷需不斷測試，因?yàn)槟Ｐ瓦M(jìn)步迅速，舊假設(shè)會很快過時(shí)。所以，今天值得花費(fèi)的token，明天可能就不再值得。token經(jīng)濟(jì)學(xué)不再是固定價(jià)目表，更像隨模型能力變化的邊際收益曲線。

結(jié)合商業(yè)背景看，變化更清晰。Anthropic當(dāng)前官方定價(jià)已開始對低延遲、合規(guī)性和高能力單獨(dú)收費(fèi)。Claude Opus 4.6的快速模式是標(biāo)準(zhǔn)價(jià)的6倍，輸入和輸出每百萬token分別為30美元和150美元；若要求美國境內(nèi)推理，所有token類別加收1.1倍費(fèi)用。OpenAI也在采取類似策略。

再看OpenAI，GPT-5.4標(biāo)準(zhǔn)短上下文輸入每百萬token 2.50美元，輸出15美元，部分區(qū)域處理加收10%；同時(shí)，內(nèi)建工具消耗的token按所選模型費(fèi)率計(jì)費(fèi)。這背后的商業(yè)邏輯是：智能體時(shí)代，用戶購買的不僅是“文本生成”，還有速度、驗(yàn)證、工具調(diào)用、地域處理和長時(shí)執(zhí)行等系統(tǒng)能力。harness越為主流，token就越像生產(chǎn)流程中的通用燃料，而非聊天接口的字?jǐn)?shù)費(fèi)用。

那么，harness究竟如何改變token經(jīng)濟(jì)學(xué)？它將token從靜態(tài)計(jì)量單位轉(zhuǎn)變?yōu)閯討B(tài)組織資源。過去關(guān)注一次調(diào)用的token用量，現(xiàn)在則關(guān)注這些token在規(guī)劃、生成、驗(yàn)證、返工和工具調(diào)用各環(huán)節(jié)的分配，以及它們是否減少失敗、提升完成率、將“像樣的結(jié)果”轉(zhuǎn)化為“可交付的結(jié)果”。

從這個(gè)角度看，未來最重要的價(jià)格指標(biāo)，或許不再是每百萬token單價(jià)，而是完成一個(gè)真實(shí)任務(wù)的總成本、減少一次返工節(jié)省的預(yù)算，以及提高一個(gè)百分點(diǎn)成功率所需的邊際token。行業(yè)真正在意的，并非harness比單智能體更貴，而是智能體時(shí)代真正昂貴的從來不是token本身，而是失敗、返工和偽完成。harness的重要性，不在于它增加了token消耗，而在于它開始決定哪些token值得花費(fèi)，哪些只是無謂消耗。

最后，理解了harness與token經(jīng)濟(jì)學(xué)的關(guān)系，你還會爭論大模型和harness哪個(gè)更重要嗎？

--

參考：

https://www.anthropic.com/engineering/harness-design-long-running-apps

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

張雪機(jī)車登頂世界冠軍：一場顛覆行業(yè)的賽道革命

別再說高敏感人群矯情了，他們的苦你真的不懂

鈦白粉市場迎漲價(jià)潮：成本激增推動月內(nèi)三連漲，企業(yè)仍面臨盈利壓力

政策扶持+設(shè)施升級：澳大利亞會獎旅游全力搶占中國市場

珍酒李渡：白酒寒冬中的破局之道

項(xiàng)目推薦

<li id="tsqln"></li>