Anthropic“蒸餾”人類最大知識(shí)庫背后:書籍掃描銷毀與AI版權(quán)爭(zhēng)議
本文來自微信公眾號(hào):APPSO,作者:發(fā)現(xiàn)明日產(chǎn)品的,原文標(biāo)題:《Anthropic「蒸餾」了人類最大的知識(shí)庫》
2024年初,美國某倉庫內(nèi),工人們正進(jìn)行著看似怪異的操作:將一本本新書送入機(jī)器,切除書脊、掃描內(nèi)容,隨后把剩余紙張送去回收。這些書籍剛被購入,甚至還帶著新書的氣息,卻無人翻閱——它們存在的唯一意義,就是被數(shù)字化掃描后銷毀。
下令執(zhí)行這一操作的,是AI公司Anthropic。在其內(nèi)部文件中,該計(jì)劃被命名為「巴拿馬項(xiàng)目」,一份規(guī)劃文件明確寫道:「這是我們以破壞性方式掃描全球所有書籍的計(jì)劃,我們不希望外界知曉此事?!?/p>
然而,秘密最終還是被揭開。上個(gè)月,美國聯(lián)邦法官解封了一批與版權(quán)訴訟相關(guān)的4000多頁文件,讓外界得以窺見這家AI公司的隱秘操作,更看清了整個(gè)AI行業(yè)在數(shù)據(jù)爭(zhēng)奪戰(zhàn)中的真實(shí)面貌。
被大模型「吞噬」的實(shí)體書
為何這些技術(shù)前沿的科技巨頭,會(huì)用如此原始甚至粗暴的方式對(duì)待紙質(zhì)書?答案藏在AI對(duì)高質(zhì)量數(shù)據(jù)的極度渴求中。Anthropic內(nèi)部很早就意識(shí)到,僅靠網(wǎng)絡(luò)內(nèi)容訓(xùn)練AI模型遠(yuǎn)遠(yuǎn)不夠。
據(jù)《華盛頓郵報(bào)》報(bào)道,Anthropic一位聯(lián)合創(chuàng)始人在2023年1月的文件中指出,用書籍訓(xùn)練模型能讓AI「學(xué)會(huì)更好地寫作」,而非僅模仿質(zhì)量參差不齊的網(wǎng)絡(luò)語言。書籍經(jīng)過嚴(yán)格編輯校對(duì),內(nèi)容結(jié)構(gòu)清晰,是網(wǎng)絡(luò)文本難以替代的高質(zhì)量語料。
這個(gè)邏輯不難理解,但問題在于:既然認(rèn)可書籍的價(jià)值,為何不支付授權(quán)費(fèi)用?究其原因,挨個(gè)與出版社、作者洽談授權(quán)既耗時(shí)費(fèi)力,成本也高。于是Anthropic啟動(dòng)了「巴拿馬項(xiàng)目」,那句「不希望外界知道」,足以說明它清楚此事并不光彩。
甚至在「巴拿馬項(xiàng)目」啟動(dòng)前,Anthropic就已嘗試通過其他方式獲取書籍。法院文件顯示,聯(lián)合創(chuàng)始人Ben Mann曾在2021年6月的11天里,從「影子圖書館」網(wǎng)站LibGen下載大量侵權(quán)小說與非小說類書籍。
一年后,2022年7月,公開宣稱「在多數(shù)國家故意違反版權(quán)法」的Pirate Library Mirror網(wǎng)站上線。Mann將該網(wǎng)站鏈接發(fā)給Anthropic其他員工,并留言:「來得正是時(shí)候?。?!」從感嘆號(hào)中,不難看出這位高管對(duì)公開違法的盜版網(wǎng)站的真實(shí)態(tài)度。
Anthropic事后稱,公司從未將這些數(shù)據(jù)用于正式發(fā)布的商業(yè)模型訓(xùn)練。但這種解釋略顯牽強(qiáng)——下載并存儲(chǔ)數(shù)據(jù),僅以「未用于正式模型」為界,這條線的劃分標(biāo)準(zhǔn),恐怕連Anthropic自己也難以說清。

為推進(jìn)「巴拿馬項(xiàng)目」,Anthropic專門聘請(qǐng)Tom Turvey主持工作。Turvey曾參與創(chuàng)建Google圖書項(xiàng)目,該項(xiàng)目因大規(guī)模掃描書籍引發(fā)多年版權(quán)爭(zhēng)議。Anthropic選擇此人主導(dǎo)此事,很難說是巧合。
最終,Anthropic主要依賴兩家書商批量供貨:美國二手書零售商Better World Books和英國的World of Books,每次采購動(dòng)輒數(shù)萬冊(cè)。內(nèi)部文件還顯示,員工曾討論接洽紐約公共圖書館,甚至提到可聯(lián)系某家長(zhǎng)期資金不足的新圖書館。
采購?fù)瓿珊?,掃描過程如同工業(yè)流水線。

掃描、數(shù)字化并銷毀數(shù)百萬圖書的圖書倉庫。圖片來自:華盛頓郵報(bào)
供應(yīng)商用液壓切割機(jī)整齊切掉書脊,散開的書頁隨即送入高速工業(yè)掃描儀,掃描完成后,剩余紙張交由回收公司處理。一家參與報(bào)價(jià)的掃描服務(wù)商在提案中寫道,Anthropic希望在六個(gè)月內(nèi)完成50萬至200萬冊(cè)書的數(shù)字化工作。
Anthropic副總法律顧問Aparna Sridhar回應(yīng)稱,法院已裁定AI訓(xùn)練「本質(zhì)上具有轉(zhuǎn)化性」,公司選擇和解的問題在于「部分材料的獲取方式,而非是否可以使用這些材料」。
這套說辭在法律上或許站得住腳,卻也揭示了一個(gè)事實(shí):這家公司從未認(rèn)為自己做錯(cuò)了什么,只是某些手段不夠「干凈」。
用你的書訓(xùn)練,再搶你的飯碗
類似的事情也發(fā)生在其他公司身上,且有些細(xì)節(jié)更為戲劇性。針對(duì)Meta的訴訟文件顯示,2023年有員工直接寫道:「用公司筆記本進(jìn)行種子下載感覺不太對(duì)勁?!顾髞磉€向法務(wù)團(tuán)隊(duì)反映,使用種子網(wǎng)站可能意味著分發(fā)盜版作品,「這在法律上可能行不通」。
但這些顧慮最終未改變?nèi)魏谓Y(jié)果。

2023年12月的一封內(nèi)部郵件顯示,使用LibGen已在「上報(bào)至MZ」后獲批,MZ即CEO馬克·扎克伯格。郵件還坦率寫明了他們清楚的風(fēng)險(xiǎn):「如果媒體報(bào)道暗示我們使用已知為盜版的數(shù)據(jù)集,可能會(huì)削弱我們?cè)诒O(jiān)管問題上的談判立場(chǎng)。」
換句話說,他們并非不知此舉不妥,只是在權(quán)衡被曝光的代價(jià)。為降低風(fēng)險(xiǎn),員工特意租用亞馬遜服務(wù)器進(jìn)行種子下載,而非使用Meta自己的服務(wù)器,目的是避免被追蹤到Meta公司。
OpenAI和微軟同樣面臨圖書作者的版權(quán)指控。OpenAI甚至承認(rèn)曾下載LibGen資源,但稱在ChatGPT發(fā)布前已刪除相關(guān)文件。
AI公司與創(chuàng)作者的版權(quán)沖突并非始于Anthropic。早在2000年代初,Google就曾大規(guī)模掃描圖書館館藏,引發(fā)長(zhǎng)達(dá)十年的訴訟。

最終法院認(rèn)定Google的做法屬于「合理使用」,因?yàn)樗鼉H提供片段摘要,目的是引導(dǎo)讀者找到書籍,而非取代書籍本身。這個(gè)判決在當(dāng)時(shí)看似合情合理,卻在二十年后為整個(gè)AI行業(yè)提供了「擋箭牌」。
Google圖書是索引工具,而生成式AI直接消化書籍內(nèi)容并輸出文字,在某些情況下與作者形成直接競(jìng)爭(zhēng)。性質(zhì)已變,但援引的法律邏輯仍是同一套,這本身就值得深思。
去年6月,聯(lián)邦法官William Alsup裁定,Anthropic用書籍訓(xùn)練AI屬于合法行為,他將這一過程比作教師「訓(xùn)練學(xué)生寫好文章」。這個(gè)比喻聽起來溫和,現(xiàn)實(shí)中卻有本質(zhì)區(qū)別:老師不會(huì)同時(shí)訓(xùn)練數(shù)百萬學(xué)生,也不會(huì)靠這些學(xué)生賺取數(shù)十億美元。
最終,Anthropic支付15億美元和解金,創(chuàng)下AI版權(quán)訴訟史上的紀(jì)錄。但細(xì)算下來,這筆賬并不虧:按美國版權(quán)法,每件作品法定賠償上限可達(dá)15萬美元,此次和解折算后每本書約賠3000美元,僅為上限的2%。
賠償金由作者和出版商平分,這一安排卻在創(chuàng)作者群體中引發(fā)爭(zhēng)議。不少作者認(rèn)為,出版商在保護(hù)作品不被AI濫用方面未盡全力,卻拿走一半賠償。更關(guān)鍵的是,和解協(xié)議不要求Anthropic承認(rèn)任何違法行為,法院對(duì)「AI訓(xùn)練屬于合理使用」的認(rèn)定依然有效。

換句話說,Anthropic用15億美元買到的不僅是和解,更是一份「背書」:可以繼續(xù)此類操作。分析人士指出,隨著這一先例確立,版權(quán)侵權(quán)對(duì)AI公司而言已不再是紅線,而是可提前計(jì)入成本的「過路費(fèi)」。
對(duì)許多作家來說,此事遠(yuǎn)不止一張支票那么簡(jiǎn)單。美國作家年收入中位數(shù)約為2萬美元,而市值數(shù)千億的AI公司在未獲授權(quán)的情況下大量使用其作品,事后賠償標(biāo)準(zhǔn)遠(yuǎn)低于法律上限。
更令人憂慮的是,AI正在批量生成文字內(nèi)容,這些低成本文本涌入市場(chǎng),讓本就艱難的寫作謀生變得更難。訓(xùn)練AI用的是人寫的書,而AI產(chǎn)出的內(nèi)容又在擠壓人繼續(xù)寫書的空間,形成惡性循環(huán)。
支持者有自己的邏輯:AI不儲(chǔ)存書籍內(nèi)容,而是提取語言規(guī)律,如同人博覽群書后形成自己的表達(dá)。這個(gè)類比并非毫無道理,卻忽略了關(guān)鍵差異:人讀一本書,不會(huì)同時(shí)讀一百萬本;而AI能在數(shù)月內(nèi)消化人類幾十年的寫作積累,隨后以極低邊際成本無限復(fù)制輸出。規(guī)模改變了性質(zhì),將兩者等同其實(shí)是一種精致的詭辯。
數(shù)百萬冊(cè)書被切開、掃描、回收,最終換來一份和解協(xié)議。那些書早已消失,而AI還在繼續(xù)寫作,且速度越來越快。這大概是最讓人不安的地方:對(duì)于書籍被銷毀、被肆意用于訓(xùn)練AI的事,沒有人真正付出代價(jià)。
附上參考地址:
https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




