號稱超越 GPT-4 有多少大模型依賴于“抄襲”?
每個人都要互相舔羊毛,要用,但是要小心使用,一不小心就尷尬。
一位國產(chǎn)大模型算法工程師正在接受「甲子光年」采訪中的吐槽,可以說是十分到位。
這是一個準確的討論 AI 這個行業(yè)的每一個人「心照不宣」公開秘密。
每個人都知道,每個人都盡量不要?!钢币暋顾?,那便是「偷數(shù)據(jù)」。
近期,「The Information」戳破這層紗布,說出大模型「套殼」其中最糟糕的一種形式。而且它背后的數(shù)據(jù)對決,今年也得到了更多的關(guān)注。
使模型走向同質(zhì)化「數(shù)據(jù)捷徑」
假如每個人都使用相同的數(shù)據(jù),你怎么會比別人好呢?
投資了 OpenAI 競爭者 Anthropic 的門羅風投(Menlo Ventures)總經(jīng)理 Matt Murphy 評論道。
眾所周知,數(shù)據(jù)在模型訓練過程中尤為重要,而且在不同階段的重點也有所不同。
練習底座模型時,數(shù)據(jù)追求的是「量」,對于計算率的要求也是極高的,它決定了大模型對事物的基本要求?!咐斫饽芰Α?。
很明顯,并非所有的創(chuàng)業(yè)公司都能負擔得起這筆費用和時間。所以許多創(chuàng)業(yè)公司都會跳過第一步,直接使用。 Meta 或 Mistral AI 使用開源模型。
在此基礎(chǔ)上,創(chuàng)業(yè)公司需要根據(jù)自己的產(chǎn)品專注方向?qū)δP瓦M行微調(diào)。 —— 數(shù)據(jù)輸入相對較少,但更有針對性和高質(zhì)量,可以幫助模型成為特定領(lǐng)域?!笇<摇梗龀錾唐凡町?。
這一階段,開發(fā)者需要輸入「問題」「回答」,試著建立一個特定的模型「聯(lián)想」傾向。
這也是「偷數(shù)據(jù)」出現(xiàn)的環(huán)節(jié)。
由于 OpenAI、Anthropic 和 Google 這類大型企業(yè)有資源完善兩個階段的實踐,因此其模型的輸出結(jié)果質(zhì)量也比較高。
創(chuàng)業(yè)公司缺乏自己的數(shù)據(jù),會購買 GPT-4 這是一個最新的模型付費賬戶,然后根據(jù)自己的模型訓練需要去哪里 GPT-4 提問,然后將答案和提問一起輸入到模型訓練中。
舉例來說,主要推廣編程細分領(lǐng)域模型的開發(fā)者可以直接輸入一個代碼,然后詢問 GPT-4 這個代碼有什么問題,這樣就產(chǎn)生了一種數(shù)據(jù)材料。
理論上,大公司是不能這樣做的。
不過,有消息說 OpenAI 的 Sam Altman 在去年的一次會議上,我告訴企業(yè)家,他們可以這樣做。雖然這讓現(xiàn)在的企業(yè)家感到安心,但是沒有人能說哪一天。 Altman 決定把這個放在一邊「特權(quán)」收回去。
Google 去年還有自己的「數(shù)據(jù)門」—— 不只是指用百度的文心一言產(chǎn)生的中文數(shù)據(jù)來訓練。 Gemini,還有員工因 Google 用 ChatGPT 生成的數(shù)據(jù)訓練自己的模型憤怒而離職。
在行業(yè)整體「默認」接下來,這種情況越來越普遍。
協(xié)助開發(fā)者研發(fā)對話式 AI 的 Unsloth AI 創(chuàng)始人 Daniel Han 表示,大約有一半的顧客會使用它。 GPT-4 或是 Anthropic 的 Claude 生成的數(shù)據(jù)可以優(yōu)化自己的模型。
本來是用來分享樂趣的 ChatGPT 對話的工具 ShareGPT 就像很多公司直接扒數(shù)據(jù)的地方一樣, OpenPipe 這類工具甚至可以提高整個過程的自動化水平。
因此,市場上提供相似模型的創(chuàng)業(yè)公司越來越多。這甚至導(dǎo)致了舊金山這樣的模型。 Martian 一般而言,專門為需要使用 AI 尋找服務(wù)企業(yè)「平替」計劃的創(chuàng)業(yè)公司。
但是投資者并不喜歡這種被騙的感覺。
正如最近一篇文章《紐約時報》所指出的那樣, AI 由于行業(yè)缺乏標準和評價體系,人們很難對不同模型的表現(xiàn)差異或優(yōu)勢有一個統(tǒng)一的標準。
這樣才能讓投資者更加重視 AI 初創(chuàng)企業(yè)培訓數(shù)據(jù)的來源。Radical Ventures 合作伙伴Rob Toews 強調(diào)說:
AI 在這些問題中,模型訓練數(shù)據(jù)的質(zhì)量和來源已成為最重要的焦點之一。 沒有人知道未來會發(fā)生什么,但是任何在信息來源上不謹慎或者沒有策略的人 AI 初創(chuàng)企業(yè)都會落后。
在數(shù)據(jù)大戰(zhàn)中,「沉默」變成了共鳴
假如說「缺芯」是 2023 年 AI 這個行業(yè)的共識,那「缺數(shù)據(jù)」則是 2024 年度新主題。不但缺少創(chuàng)業(yè)公司,大公司更缺乏。
無論規(guī)模大小,這些公司都開始在灰色地帶徘徊,以獲取數(shù)據(jù)。
早在 2021 年,OpenAI 面臨著數(shù)據(jù)短缺的問題。
盡管有些員工提出了行為不當?shù)膿鷳n,但最終還是 OpenAI 或者寫一個語音轉(zhuǎn)文字工具? Whisper 來將超出 100 萬小時的 YouTube 把視頻轉(zhuǎn)換成文字,用來 GPT-4 訓練。
在這次行動中,OpenAI 總裁 Greg Brockman 還親自出馬幫忙收集視頻。
據(jù)知情人士透露,當 Google 發(fā)覺 OpenAI 在做了什么之后,它并沒有透露訓斥這些損害創(chuàng)作者版權(quán)的行為,因為,Google 還要做同樣的事。
Google 發(fā)言人 Matt Bryant 回應(yīng)說,公司是對的 OpenAI 不知情的行為,也禁止未經(jīng)授權(quán)的數(shù)據(jù)捕獲。
除了 YouTube 此外,三位知情人士表示,Google 還在盯著旗下的網(wǎng)上合作文檔工具 Google Doc 數(shù)據(jù),但其隱私政策限制了數(shù)據(jù) Google 如何使用這些數(shù)據(jù)。
去年 7 月,Google 更新隱私政策,明確表示可以通過收集網(wǎng)絡(luò)上的公共信息或者來自其他公共來源的信息來訓練 AI 模型。
對在 AI 領(lǐng)域「一大早起床,卻趕上了晚會。」的 Meta 盡管一些法律事務(wù)警告了版權(quán)問題,但最終還是決定跟隨。 OpenAI 的「行業(yè)例子」使用版權(quán)保護書籍、文章等材料。
泄露的錄音也顯示,Meta 高管們一致同意,出了問題可以用。 2015 年度作家協(xié)會訴訟 Google 案件失敗的先例是辯護。
看起來應(yīng)該是這樣 Meta 最大優(yōu)勢的 Facebook 和 Instagram,事實上,可用數(shù)據(jù)并不多,很多 Facebook 使用者刪除了他們最初發(fā)布的內(nèi)容,而社交媒體一般也不是每個人都喜歡發(fā)布長篇內(nèi)容的地方。
這類巨人不愿言說的過去,形成了 AI 行業(yè)在訓練數(shù)據(jù)上一致閃爍其詞。
Adobe 在這些企業(yè)中,很少有大型企業(yè)積極討論自己的模型培訓數(shù)據(jù)。
近期,它也「塌房」了。
Adobe 一直標榜公司與創(chuàng)作者站在同一邊,堅定地只使用自己獲得授權(quán)的圖庫來訓練模型,不會像 Midjourney、Dall-E 如此私人使用有版權(quán)保護的圖像素材進行訓練。
直至有人發(fā)現(xiàn),Adobe 事實上,培訓數(shù)據(jù)包含了培訓數(shù)據(jù) AI 生成圖片,并生成 Adobe 同樣是知情的。
盡管 Adobe 需要強調(diào)的是,模型訓練數(shù)據(jù)只有 5% 上下圖像是 AI 產(chǎn)生的,但無論如何,這些圖像都是通過損害創(chuàng)作者的版權(quán)利益而制作的,所以并不完全是這樣?!傅赖隆埂?/p>
這個月初,Adobe 高級副總裁 Ashley Still 仍然在一次公開活動中說:
我們在推出 Firefly 有時候,一些企業(yè)客戶會來告訴我們:「你所做的事情,我們真的很感激你沒有竊取我們在網(wǎng)上的知識產(chǎn)權(quán)?!?/strong>
不清楚「塌房」這個企業(yè)客戶在消息出來之后會有什么感受?
「榨干」因特網(wǎng)之后,下一步是什么?
以前我們認為是因特網(wǎng)「廣闊無垠」,直到現(xiàn)在,大語言模型已經(jīng)存在「吃不飽」。
兩年前,科研機構(gòu) Epoch 的 Pablo Villalobos 指出,高質(zhì)量的數(shù)據(jù)很有可能在 2024 2008年中期,需求超過供給?,F(xiàn)在他們有點樂觀,認為這種情況會發(fā)生。 2028 年才出現(xiàn)。
即便如此,OpenAI 也許現(xiàn)在也已經(jīng)很忙了。
Epoch估算,GPT-4 使用的訓練數(shù)據(jù)大約是 12 萬億 token,按規(guī)模定律(Scaling Law),要訓練出被寄予厚望的人。 GPT-5 大概要 60-100 萬億 token。
按照這個標準,目前高質(zhì)量的文字數(shù)據(jù)和圖像數(shù)據(jù)的總體規(guī)模還不夠,還不夠。 10-20 萬億 token。
變化刻不容緩。
Sam Altman 以前也暗示過,OpenAI 尋找新的出路:
在我看來,那個追求龐大模型的時代即將結(jié)束。 通過其它方法,我們可以讓它們變得更好。

同時,消息人士表示, OpenAI 和 Google 我們都考慮做一個系統(tǒng),可以測量特定數(shù)據(jù)對模型訓練的貢獻程度,這樣可以為提供這些數(shù)據(jù)的人計算支付的費用,但是目前還沒有進展。
在實現(xiàn)這些開拓數(shù)據(jù)和創(chuàng)新技術(shù)之前,有一件事。 AI 創(chuàng)業(yè)者現(xiàn)在有能力但不一定愿意做的事情。 —— 提高透明度,打破沉默。
要是這樣做不到,我們怎么能相信這些公司能夠?qū)ι鐣撠熌兀?AI 商品?
本文來自微信微信官方賬號“APPSO”(ID:appsolution),作者:方嘉文,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





