性能追平旗艦,成本直降五分之四——Anthropic Sonnet 4.6重塑AI定價(jià)邏輯

距離Claude Opus 4.6發(fā)布僅12天,Anthropic便推出了全新中檔模型Claude Sonnet 4.6。此次發(fā)布的核心并非技術(shù)突破,而是以極低價(jià)格實(shí)現(xiàn)了與競(jìng)品持平的性能表現(xiàn)。
Sonnet 4.6延續(xù)前代Sonnet 4.5的定價(jià):每百萬(wàn)token輸入3美元、輸出15美元。但在多項(xiàng)基準(zhǔn)測(cè)試中,它的表現(xiàn)接近甚至超越了價(jià)格高出五倍的Opus 4.6。Anthropic用實(shí)際行動(dòng)證明,性價(jià)比與高性能并非不可兼得。當(dāng)然,在部分高復(fù)雜度任務(wù)中,Opus 4.6仍保持領(lǐng)先優(yōu)勢(shì)。
01 Sonnet 4.6的性能究竟有多亮眼?
在衡量真實(shí)軟件編碼能力的SWE-bench Verified測(cè)試中,Sonnet 4.6得分79.6%,幾乎追平Opus 4.6的80.8%,略超OpenAI GPT-5.2;代理式金融分析任務(wù)中,它以63.3%的成績(jī)領(lǐng)先所有對(duì)手,包括Opus 4.6的60.1%和GPT-5.2的59.0%;辦公任務(wù)GDPval-AA Elo評(píng)分達(dá)1633分,超越Opus 4.6的1606分和GPT-5.2的1462分。過(guò)去需旗艦?zāi)P屯瓿傻娜蝿?wù),如今用Sonnet 4.6即可勝任,這對(duì)日均處理數(shù)百萬(wàn)token的企業(yè)而言,意味著成本大幅降低。
不過(guò)Opus 4.6在終端編碼(Terminal-Bench 2.0得分65.4% vs Sonnet 4.6的59.1%)、代理式搜索(BrowseComp 84.0% vs 74.7%)、新穎問(wèn)題解決(ARC-AGI-2 68.8% vs 58.3%)等領(lǐng)域仍保持領(lǐng)先。這些差距表明,前沿研究與頂級(jí)精度場(chǎng)景仍需Opus 4.6,但多數(shù)生產(chǎn)環(huán)境下,Sonnet 4.6已能滿足需求。

Sonnet 4.6最顯著的進(jìn)步在于計(jì)算機(jī)使用能力:OSWorld-Verified基準(zhǔn)測(cè)試得分72.5%,遠(yuǎn)超前代Sonnet 4.5的61.4%和GPT-5.2的38.2%。這一能力指AI無(wú)需API接口,通過(guò)鼠標(biāo)點(diǎn)擊、鍵盤(pán)輸入直接與軟件交互的能力。此前引發(fā)熱議的豆包手機(jī)助手,其UI-TARS模型在該基準(zhǔn)測(cè)試中得47.5%,已能完成除支付外的所有操作。以此推測(cè),Sonnet 4.6的實(shí)際表現(xiàn)將更為驚艷。
這項(xiàng)能力的重要性在于,它為企業(yè)打開(kāi)了更廣泛的應(yīng)用場(chǎng)景——無(wú)需定制連接器,模型即可直接操作所有可交互系統(tǒng)。Anthropic透露,早期用戶已觀察到接近人類水平的表現(xiàn),能完成復(fù)雜電子表格任務(wù)與多步驟網(wǎng)頁(yè)表單。保險(xiǎn)科技公司Pace的CEO賈米·考夫表示,Sonnet 4.6在其復(fù)雜保險(xiǎn)計(jì)算機(jī)使用基準(zhǔn)測(cè)試中得分94%,是所有測(cè)試過(guò)的Claude模型中最高的,“它能以從未見(jiàn)過(guò)的方式推理失敗原因并自我糾正”。
此外,Sonnet 4.6在抵御提示注入攻擊方面較前代有重大改進(jìn),這對(duì)部署網(wǎng)頁(yè)瀏覽與外部系統(tǒng)交互代理的企業(yè)至關(guān)重要。
02 價(jià)格僅為旗艦的五分之一,成本大降
Sonnet 4.6的價(jià)格優(yōu)勢(shì)十分顯著:早期用戶反饋,原本需花五倍成本才能獲得的能力,如今用Sonnet 4.6即可實(shí)現(xiàn)相近效果,運(yùn)營(yíng)成本或直接降至原來(lái)的五分之一,工作質(zhì)量卻幾乎不受影響。
數(shù)據(jù)分析平臺(tái)Hex Technologies的CTO、Anthropic聯(lián)合創(chuàng)始人兼首席產(chǎn)品官凱特琳-科爾格羅夫稱,公司正將大部分流量遷移至Sonnet 4.6。通過(guò)自適應(yīng)思考與高努力模式,“除最困難的分析任務(wù)外,所有任務(wù)都達(dá)到了Opus級(jí)性能,且配置更高效靈活。以Sonnet的價(jià)格,這將大幅降低工作成本”。云存儲(chǔ)公司Box的CTO本·喀什表示,Sonnet 4.6在真實(shí)企業(yè)文檔重度推理問(wèn)答中,比Sonnet 4.5提升了15個(gè)百分點(diǎn)。
Sonnet 4.6配備100萬(wàn)token超長(zhǎng)上下文窗口,可容納整個(gè)代碼庫(kù)、法律文件或數(shù)十篇研究論文。Anthropic通過(guò)Vending-Bench Arena基準(zhǔn)測(cè)試證明其有效推理能力——該測(cè)試模擬企業(yè)運(yùn)營(yíng),AI模型需競(jìng)爭(zhēng)獲取最大利潤(rùn)。測(cè)試中,Sonnet 4.6在無(wú)人類提示的情況下,前十個(gè)模擬月大量投資產(chǎn)能(支出遠(yuǎn)超對(duì)手),最后階段轉(zhuǎn)向盈利,365天模擬結(jié)束時(shí)余額約5700美元,遠(yuǎn)超Sonnet 4.5的2100美元。

03 借新模型擴(kuò)張市場(chǎng),開(kāi)啟印度業(yè)務(wù)
正值上市前關(guān)鍵階段的Anthropic,借Sonnet 4.6發(fā)布之機(jī)積極擴(kuò)張業(yè)務(wù):發(fā)布當(dāng)天,印度IT巨頭Infosys宣布與Anthropic合作,將Claude模型集成到其Topaz AI平臺(tái),服務(wù)銀行、電信與制造業(yè);同時(shí),Anthropic在印度班加羅爾開(kāi)設(shè)首個(gè)辦事處,目前印度占全球Claude使用量約6%,僅次于美國(guó)。
Anthropic的進(jìn)步還引發(fā)了軟件股的大規(guī)模拋售,連業(yè)績(jī)大漲的微軟也經(jīng)歷股價(jià)暴跌——投資者愈發(fā)擔(dān)憂AI對(duì)現(xiàn)有業(yè)務(wù)的潛在顛覆,Sonnet 4.6可能加劇這種不安氛圍。此外,Anthropic還將免費(fèi)層級(jí)默認(rèn)升級(jí)至Sonnet 4.6,開(kāi)發(fā)者可通過(guò)Claude API直接調(diào)用。
本文來(lái)自微信公眾號(hào)“字母AI”,作者:苗正,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



