欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

^{<td id="u6a82"></td>}

性能追平旗艦，成本直降五分之四——Anthropic Sonnet 4.6重塑AI定價(jià)邏輯

02-19 06:09

Sonnet 4.6：中檔模型的性能革命，讓AI成本不再高不可攀

距離Claude Opus 4.6發(fā)布僅12天，Anthropic便推出了全新中檔模型Claude Sonnet 4.6。此次發(fā)布的核心并非技術(shù)突破，而是以極低價(jià)格實(shí)現(xiàn)了與競(jìng)品持平的性能表現(xiàn)。

Sonnet 4.6延續(xù)前代Sonnet 4.5的定價(jià)：每百萬(wàn)token輸入3美元、輸出15美元。但在多項(xiàng)基準(zhǔn)測(cè)試中，它的表現(xiàn)接近甚至超越了價(jià)格高出五倍的Opus 4.6。Anthropic用實(shí)際行動(dòng)證明，性價(jià)比與高性能并非不可兼得。當(dāng)然，在部分高復(fù)雜度任務(wù)中，Opus 4.6仍保持領(lǐng)先優(yōu)勢(shì)。

01 Sonnet 4.6的性能究竟有多亮眼？

在衡量真實(shí)軟件編碼能力的SWE-bench Verified測(cè)試中，Sonnet 4.6得分79.6%，幾乎追平Opus 4.6的80.8%，略超OpenAI GPT-5.2；代理式金融分析任務(wù)中，它以63.3%的成績(jī)領(lǐng)先所有對(duì)手，包括Opus 4.6的60.1%和GPT-5.2的59.0%；辦公任務(wù)GDPval-AA Elo評(píng)分達(dá)1633分，超越Opus 4.6的1606分和GPT-5.2的1462分。過(guò)去需旗艦?zāi)Ｐ屯瓿傻娜蝿?wù)，如今用Sonnet 4.6即可勝任，這對(duì)日均處理數(shù)百萬(wàn)token的企業(yè)而言，意味著成本大幅降低。

不過(guò)Opus 4.6在終端編碼（Terminal-Bench 2.0得分65.4% vs Sonnet 4.6的59.1%）、代理式搜索（BrowseComp 84.0% vs 74.7%）、新穎問(wèn)題解決（ARC-AGI-2 68.8% vs 58.3%）等領(lǐng)域仍保持領(lǐng)先。這些差距表明，前沿研究與頂級(jí)精度場(chǎng)景仍需Opus 4.6，但多數(shù)生產(chǎn)環(huán)境下，Sonnet 4.6已能滿足需求。

Sonnet 4.6最顯著的進(jìn)步在于計(jì)算機(jī)使用能力：OSWorld-Verified基準(zhǔn)測(cè)試得分72.5%，遠(yuǎn)超前代Sonnet 4.5的61.4%和GPT-5.2的38.2%。這一能力指AI無(wú)需API接口，通過(guò)鼠標(biāo)點(diǎn)擊、鍵盤(pán)輸入直接與軟件交互的能力。此前引發(fā)熱議的豆包手機(jī)助手，其UI-TARS模型在該基準(zhǔn)測(cè)試中得47.5%，已能完成除支付外的所有操作。以此推測(cè)，Sonnet 4.6的實(shí)際表現(xiàn)將更為驚艷。

這項(xiàng)能力的重要性在于，它為企業(yè)打開(kāi)了更廣泛的應(yīng)用場(chǎng)景——無(wú)需定制連接器，模型即可直接操作所有可交互系統(tǒng)。Anthropic透露，早期用戶已觀察到接近人類水平的表現(xiàn)，能完成復(fù)雜電子表格任務(wù)與多步驟網(wǎng)頁(yè)表單。保險(xiǎn)科技公司Pace的CEO賈米·考夫表示，Sonnet 4.6在其復(fù)雜保險(xiǎn)計(jì)算機(jī)使用基準(zhǔn)測(cè)試中得分94%，是所有測(cè)試過(guò)的Claude模型中最高的，“它能以從未見(jiàn)過(guò)的方式推理失敗原因并自我糾正”。

此外，Sonnet 4.6在抵御提示注入攻擊方面較前代有重大改進(jìn)，這對(duì)部署網(wǎng)頁(yè)瀏覽與外部系統(tǒng)交互代理的企業(yè)至關(guān)重要。

02 價(jià)格僅為旗艦的五分之一，成本大降

Sonnet 4.6的價(jià)格優(yōu)勢(shì)十分顯著：早期用戶反饋，原本需花五倍成本才能獲得的能力，如今用Sonnet 4.6即可實(shí)現(xiàn)相近效果，運(yùn)營(yíng)成本或直接降至原來(lái)的五分之一，工作質(zhì)量卻幾乎不受影響。

數(shù)據(jù)分析平臺(tái)Hex Technologies的CTO、Anthropic聯(lián)合創(chuàng)始人兼首席產(chǎn)品官凱特琳-科爾格羅夫稱，公司正將大部分流量遷移至Sonnet 4.6。通過(guò)自適應(yīng)思考與高努力模式，“除最困難的分析任務(wù)外，所有任務(wù)都達(dá)到了Opus級(jí)性能，且配置更高效靈活。以Sonnet的價(jià)格，這將大幅降低工作成本”。云存儲(chǔ)公司Box的CTO本·喀什表示，Sonnet 4.6在真實(shí)企業(yè)文檔重度推理問(wèn)答中，比Sonnet 4.5提升了15個(gè)百分點(diǎn)。

Sonnet 4.6配備100萬(wàn)token超長(zhǎng)上下文窗口，可容納整個(gè)代碼庫(kù)、法律文件或數(shù)十篇研究論文。Anthropic通過(guò)Vending-Bench Arena基準(zhǔn)測(cè)試證明其有效推理能力——該測(cè)試模擬企業(yè)運(yùn)營(yíng)，AI模型需競(jìng)爭(zhēng)獲取最大利潤(rùn)。測(cè)試中，Sonnet 4.6在無(wú)人類提示的情況下，前十個(gè)模擬月大量投資產(chǎn)能（支出遠(yuǎn)超對(duì)手），最后階段轉(zhuǎn)向盈利，365天模擬結(jié)束時(shí)余額約5700美元，遠(yuǎn)超Sonnet 4.5的2100美元。

03 借新模型擴(kuò)張市場(chǎng)，開(kāi)啟印度業(yè)務(wù)

正值上市前關(guān)鍵階段的Anthropic，借Sonnet 4.6發(fā)布之機(jī)積極擴(kuò)張業(yè)務(wù)：發(fā)布當(dāng)天，印度IT巨頭Infosys宣布與Anthropic合作，將Claude模型集成到其Topaz AI平臺(tái)，服務(wù)銀行、電信與制造業(yè)；同時(shí)，Anthropic在印度班加羅爾開(kāi)設(shè)首個(gè)辦事處，目前印度占全球Claude使用量約6%，僅次于美國(guó)。

Anthropic的進(jìn)步還引發(fā)了軟件股的大規(guī)模拋售，連業(yè)績(jī)大漲的微軟也經(jīng)歷股價(jià)暴跌——投資者愈發(fā)擔(dān)憂AI對(duì)現(xiàn)有業(yè)務(wù)的潛在顛覆，Sonnet 4.6可能加劇這種不安氛圍。此外，Anthropic還將免費(fèi)層級(jí)默認(rèn)升級(jí)至Sonnet 4.6，開(kāi)發(fā)者可通過(guò)Claude API直接調(diào)用。

本文來(lái)自微信公眾號(hào)“字母AI”，作者：苗正，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

大廠AI下沉：銀發(fā)族玩轉(zhuǎn)AI成常態(tài)，拜年搞錢(qián)樣樣行

光頭強(qiáng)與熊大熊二：十二年的銀幕陪伴為何經(jīng)久不衰？

0.09秒改寫(xiě)歷史：中國(guó)速滑男團(tuán)追逐銅牌背后的艱辛與突破

海派非遺亮相比利時(shí) 布魯塞爾洋溢中國(guó)年味

新春走基層｜書(shū)香伴年味：上海書(shū)城成市民新春出游首站

<table id="uekqm"><nav id="uekqm"></nav></table>

<tbody id="uekqm"><th id="uekqm"></th></tbody>

<tr id="uekqm"><button id="uekqm"></button></tr>