欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

Anthropic“蒸餾”人類最大知識(shí)庫背后：書籍掃描銷毀與AI版權(quán)爭(zhēng)議

02-25 06:21

本文來自微信公眾號(hào)：APPSO，作者：發(fā)現(xiàn)明日產(chǎn)品的，原文標(biāo)題：《Anthropic「蒸餾」了人類最大的知識(shí)庫》

2024年初，美國某倉庫內(nèi)，工人們正進(jìn)行著看似怪異的操作：將一本本新書送入機(jī)器，切除書脊、掃描內(nèi)容，隨后把剩余紙張送去回收。這些書籍剛被購入，甚至還帶著新書的氣息，卻無人翻閱——它們存在的唯一意義，就是被數(shù)字化掃描后銷毀。

下令執(zhí)行這一操作的，是AI公司Anthropic。在其內(nèi)部文件中，該計(jì)劃被命名為「巴拿馬項(xiàng)目」，一份規(guī)劃文件明確寫道：「這是我們以破壞性方式掃描全球所有書籍的計(jì)劃，我們不希望外界知曉此事?！?/p>

然而，秘密最終還是被揭開。上個(gè)月，美國聯(lián)邦法官解封了一批與版權(quán)訴訟相關(guān)的4000多頁文件，讓外界得以窺見這家AI公司的隱秘操作，更看清了整個(gè)AI行業(yè)在數(shù)據(jù)爭(zhēng)奪戰(zhàn)中的真實(shí)面貌。

被大模型「吞噬」的實(shí)體書

為何這些技術(shù)前沿的科技巨頭，會(huì)用如此原始甚至粗暴的方式對(duì)待紙質(zhì)書？答案藏在AI對(duì)高質(zhì)量數(shù)據(jù)的極度渴求中。Anthropic內(nèi)部很早就意識(shí)到，僅靠網(wǎng)絡(luò)內(nèi)容訓(xùn)練AI模型遠(yuǎn)遠(yuǎn)不夠。

據(jù)《華盛頓郵報(bào)》報(bào)道，Anthropic一位聯(lián)合創(chuàng)始人在2023年1月的文件中指出，用書籍訓(xùn)練模型能讓AI「學(xué)會(huì)更好地寫作」，而非僅模仿質(zhì)量參差不齊的網(wǎng)絡(luò)語言。書籍經(jīng)過嚴(yán)格編輯校對(duì)，內(nèi)容結(jié)構(gòu)清晰，是網(wǎng)絡(luò)文本難以替代的高質(zhì)量語料。

這個(gè)邏輯不難理解，但問題在于：既然認(rèn)可書籍的價(jià)值，為何不支付授權(quán)費(fèi)用？究其原因，挨個(gè)與出版社、作者洽談授權(quán)既耗時(shí)費(fèi)力，成本也高。于是Anthropic啟動(dòng)了「巴拿馬項(xiàng)目」，那句「不希望外界知道」，足以說明它清楚此事并不光彩。

甚至在「巴拿馬項(xiàng)目」啟動(dòng)前，Anthropic就已嘗試通過其他方式獲取書籍。法院文件顯示，聯(lián)合創(chuàng)始人Ben Mann曾在2021年6月的11天里，從「影子圖書館」網(wǎng)站LibGen下載大量侵權(quán)小說與非小說類書籍。

一年后，2022年7月，公開宣稱「在多數(shù)國家故意違反版權(quán)法」的Pirate Library Mirror網(wǎng)站上線。Mann將該網(wǎng)站鏈接發(fā)給Anthropic其他員工，并留言：「來得正是時(shí)候?。?！」從感嘆號(hào)中，不難看出這位高管對(duì)公開違法的盜版網(wǎng)站的真實(shí)態(tài)度。

Anthropic事后稱，公司從未將這些數(shù)據(jù)用于正式發(fā)布的商業(yè)模型訓(xùn)練。但這種解釋略顯牽強(qiáng)——下載并存儲(chǔ)數(shù)據(jù)，僅以「未用于正式模型」為界，這條線的劃分標(biāo)準(zhǔn)，恐怕連Anthropic自己也難以說清。

為推進(jìn)「巴拿馬項(xiàng)目」，Anthropic專門聘請(qǐng)Tom Turvey主持工作。Turvey曾參與創(chuàng)建Google圖書項(xiàng)目，該項(xiàng)目因大規(guī)模掃描書籍引發(fā)多年版權(quán)爭(zhēng)議。Anthropic選擇此人主導(dǎo)此事，很難說是巧合。

最終，Anthropic主要依賴兩家書商批量供貨：美國二手書零售商Better World Books和英國的World of Books，每次采購動(dòng)輒數(shù)萬冊(cè)。內(nèi)部文件還顯示，員工曾討論接洽紐約公共圖書館，甚至提到可聯(lián)系某家長(zhǎng)期資金不足的新圖書館。

采購?fù)瓿珊?，掃描過程如同工業(yè)流水線。

掃描、數(shù)字化并銷毀數(shù)百萬圖書的圖書倉庫。圖片來自：華盛頓郵報(bào)

供應(yīng)商用液壓切割機(jī)整齊切掉書脊，散開的書頁隨即送入高速工業(yè)掃描儀，掃描完成后，剩余紙張交由回收公司處理。一家參與報(bào)價(jià)的掃描服務(wù)商在提案中寫道，Anthropic希望在六個(gè)月內(nèi)完成50萬至200萬冊(cè)書的數(shù)字化工作。

Anthropic副總法律顧問Aparna Sridhar回應(yīng)稱，法院已裁定AI訓(xùn)練「本質(zhì)上具有轉(zhuǎn)化性」，公司選擇和解的問題在于「部分材料的獲取方式，而非是否可以使用這些材料」。

這套說辭在法律上或許站得住腳，卻也揭示了一個(gè)事實(shí)：這家公司從未認(rèn)為自己做錯(cuò)了什么，只是某些手段不夠「干凈」。

用你的書訓(xùn)練，再搶你的飯碗

類似的事情也發(fā)生在其他公司身上，且有些細(xì)節(jié)更為戲劇性。針對(duì)Meta的訴訟文件顯示，2023年有員工直接寫道：「用公司筆記本進(jìn)行種子下載感覺不太對(duì)勁?！顾髞磉€向法務(wù)團(tuán)隊(duì)反映，使用種子網(wǎng)站可能意味著分發(fā)盜版作品，「這在法律上可能行不通」。

但這些顧慮最終未改變?nèi)魏谓Y(jié)果。

2023年12月的一封內(nèi)部郵件顯示，使用LibGen已在「上報(bào)至MZ」后獲批，MZ即CEO馬克·扎克伯格。郵件還坦率寫明了他們清楚的風(fēng)險(xiǎn)：「如果媒體報(bào)道暗示我們使用已知為盜版的數(shù)據(jù)集，可能會(huì)削弱我們?cè)诒O(jiān)管問題上的談判立場(chǎng)。」

換句話說，他們并非不知此舉不妥，只是在權(quán)衡被曝光的代價(jià)。為降低風(fēng)險(xiǎn)，員工特意租用亞馬遜服務(wù)器進(jìn)行種子下載，而非使用Meta自己的服務(wù)器，目的是避免被追蹤到Meta公司。

OpenAI和微軟同樣面臨圖書作者的版權(quán)指控。OpenAI甚至承認(rèn)曾下載LibGen資源，但稱在ChatGPT發(fā)布前已刪除相關(guān)文件。

AI公司與創(chuàng)作者的版權(quán)沖突并非始于Anthropic。早在2000年代初，Google就曾大規(guī)模掃描圖書館館藏，引發(fā)長(zhǎng)達(dá)十年的訴訟。

最終法院認(rèn)定Google的做法屬于「合理使用」，因?yàn)樗鼉H提供片段摘要，目的是引導(dǎo)讀者找到書籍，而非取代書籍本身。這個(gè)判決在當(dāng)時(shí)看似合情合理，卻在二十年后為整個(gè)AI行業(yè)提供了「擋箭牌」。

Google圖書是索引工具，而生成式AI直接消化書籍內(nèi)容并輸出文字，在某些情況下與作者形成直接競(jìng)爭(zhēng)。性質(zhì)已變，但援引的法律邏輯仍是同一套，這本身就值得深思。

去年6月，聯(lián)邦法官William Alsup裁定，Anthropic用書籍訓(xùn)練AI屬于合法行為，他將這一過程比作教師「訓(xùn)練學(xué)生寫好文章」。這個(gè)比喻聽起來溫和，現(xiàn)實(shí)中卻有本質(zhì)區(qū)別：老師不會(huì)同時(shí)訓(xùn)練數(shù)百萬學(xué)生，也不會(huì)靠這些學(xué)生賺取數(shù)十億美元。

最終，Anthropic支付15億美元和解金，創(chuàng)下AI版權(quán)訴訟史上的紀(jì)錄。但細(xì)算下來，這筆賬并不虧：按美國版權(quán)法，每件作品法定賠償上限可達(dá)15萬美元，此次和解折算后每本書約賠3000美元，僅為上限的2%。

賠償金由作者和出版商平分，這一安排卻在創(chuàng)作者群體中引發(fā)爭(zhēng)議。不少作者認(rèn)為，出版商在保護(hù)作品不被AI濫用方面未盡全力，卻拿走一半賠償。更關(guān)鍵的是，和解協(xié)議不要求Anthropic承認(rèn)任何違法行為，法院對(duì)「AI訓(xùn)練屬于合理使用」的認(rèn)定依然有效。

換句話說，Anthropic用15億美元買到的不僅是和解，更是一份「背書」：可以繼續(xù)此類操作。分析人士指出，隨著這一先例確立，版權(quán)侵權(quán)對(duì)AI公司而言已不再是紅線，而是可提前計(jì)入成本的「過路費(fèi)」。

對(duì)許多作家來說，此事遠(yuǎn)不止一張支票那么簡(jiǎn)單。美國作家年收入中位數(shù)約為2萬美元，而市值數(shù)千億的AI公司在未獲授權(quán)的情況下大量使用其作品，事后賠償標(biāo)準(zhǔn)遠(yuǎn)低于法律上限。

更令人憂慮的是，AI正在批量生成文字內(nèi)容，這些低成本文本涌入市場(chǎng)，讓本就艱難的寫作謀生變得更難。訓(xùn)練AI用的是人寫的書，而AI產(chǎn)出的內(nèi)容又在擠壓人繼續(xù)寫書的空間，形成惡性循環(huán)。

支持者有自己的邏輯：AI不儲(chǔ)存書籍內(nèi)容，而是提取語言規(guī)律，如同人博覽群書后形成自己的表達(dá)。這個(gè)類比并非毫無道理，卻忽略了關(guān)鍵差異：人讀一本書，不會(huì)同時(shí)讀一百萬本；而AI能在數(shù)月內(nèi)消化人類幾十年的寫作積累，隨后以極低邊際成本無限復(fù)制輸出。規(guī)模改變了性質(zhì)，將兩者等同其實(shí)是一種精致的詭辯。

數(shù)百萬冊(cè)書被切開、掃描、回收，最終換來一份和解協(xié)議。那些書早已消失，而AI還在繼續(xù)寫作，且速度越來越快。這大概是最讓人不安的地方：對(duì)于書籍被銷毀、被肆意用于訓(xùn)練AI的事，沒有人真正付出代價(jià)。

附上參考地址：

https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

馬年將至，汽車經(jīng)銷商能否迎來轉(zhuǎn)機(jī)？

“大學(xué)望境”：中國美院二十年教學(xué)成果展啟幕

歷時(shí)144年的巴塞羅那圣家堂主體封頂全面完工尚需至少十年

海南自貿(mào)港封關(guān)后首個(gè)春節(jié)：近十萬警力護(hù)航治安警情降超三成

清北領(lǐng)跑IPO賽道，中南與華南理工成年度黑馬

項(xiàng)目推薦

迪瓜租機(jī)

康老板 · 氧療堂