欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

號稱超越 GPT-4 有多少大模型依賴于“抄襲”？

2024-04-27

每個人都要互相舔羊毛，要用，但是要小心使用，一不小心就尷尬。

一位國產(chǎn)大模型算法工程師正在接受「甲子光年」采訪中的吐槽，可以說是十分到位。

這是一個準確的討論 AI 這個行業(yè)的每一個人「心照不宣」公開秘密。

每個人都知道，每個人都盡量不要?！钢币暋顾?，那便是「偷數(shù)據(jù)」。

近期，「The Information」戳破這層紗布，說出大模型「套殼」其中最糟糕的一種形式。而且它背后的數(shù)據(jù)對決，今年也得到了更多的關(guān)注。

使模型走向同質(zhì)化「數(shù)據(jù)捷徑」

假如每個人都使用相同的數(shù)據(jù)，你怎么會比別人好呢？

投資了 OpenAI 競爭者 Anthropic 的門羅風投（Menlo Ventures）總經(jīng)理 Matt Murphy 評論道。

眾所周知，數(shù)據(jù)在模型訓練過程中尤為重要，而且在不同階段的重點也有所不同。

練習底座模型時，數(shù)據(jù)追求的是「量」，對于計算率的要求也是極高的，它決定了大模型對事物的基本要求?！咐斫饽芰Α?。

很明顯，并非所有的創(chuàng)業(yè)公司都能負擔得起這筆費用和時間。所以許多創(chuàng)業(yè)公司都會跳過第一步，直接使用。 Meta 或 Mistral AI 使用開源模型。

在此基礎(chǔ)上，創(chuàng)業(yè)公司需要根據(jù)自己的產(chǎn)品專注方向?qū)δＰ瓦M行微調(diào)。 —— 數(shù)據(jù)輸入相對較少，但更有針對性和高質(zhì)量，可以幫助模型成為特定領(lǐng)域?！笇＜摇梗龀錾唐凡町?。

這一階段，開發(fā)者需要輸入「問題」「回答」，試著建立一個特定的模型「聯(lián)想」傾向。

這也是「偷數(shù)據(jù)」出現(xiàn)的環(huán)節(jié)。

由于 OpenAI、Anthropic 和 Google 這類大型企業(yè)有資源完善兩個階段的實踐，因此其模型的輸出結(jié)果質(zhì)量也比較高。

創(chuàng)業(yè)公司缺乏自己的數(shù)據(jù)，會購買 GPT-4 這是一個最新的模型付費賬戶，然后根據(jù)自己的模型訓練需要去哪里 GPT-4 提問，然后將答案和提問一起輸入到模型訓練中。

舉例來說，主要推廣編程細分領(lǐng)域模型的開發(fā)者可以直接輸入一個代碼，然后詢問 GPT-4 這個代碼有什么問題，這樣就產(chǎn)生了一種數(shù)據(jù)材料。

理論上，大公司是不能這樣做的。

不過，有消息說 OpenAI 的 Sam Altman 在去年的一次會議上，我告訴企業(yè)家，他們可以這樣做。雖然這讓現(xiàn)在的企業(yè)家感到安心，但是沒有人能說哪一天。 Altman 決定把這個放在一邊「特權(quán)」收回去。

Google 去年還有自己的「數(shù)據(jù)門」—— 不只是指用百度的文心一言產(chǎn)生的中文數(shù)據(jù)來訓練。 Gemini，還有員工因 Google 用 ChatGPT 生成的數(shù)據(jù)訓練自己的模型憤怒而離職。

在行業(yè)整體「默認」接下來，這種情況越來越普遍。

協(xié)助開發(fā)者研發(fā)對話式 AI 的 Unsloth AI 創(chuàng)始人 Daniel Han 表示，大約有一半的顧客會使用它。 GPT-4 或是 Anthropic 的 Claude 生成的數(shù)據(jù)可以優(yōu)化自己的模型。

本來是用來分享樂趣的 ChatGPT 對話的工具 ShareGPT 就像很多公司直接扒數(shù)據(jù)的地方一樣， OpenPipe 這類工具甚至可以提高整個過程的自動化水平。

因此，市場上提供相似模型的創(chuàng)業(yè)公司越來越多。這甚至導(dǎo)致了舊金山這樣的模型。 Martian 一般而言，專門為需要使用 AI 尋找服務(wù)企業(yè)「平替」計劃的創(chuàng)業(yè)公司。

但是投資者并不喜歡這種被騙的感覺。

正如最近一篇文章《紐約時報》所指出的那樣， AI 由于行業(yè)缺乏標準和評價體系，人們很難對不同模型的表現(xiàn)差異或優(yōu)勢有一個統(tǒng)一的標準。

這樣才能讓投資者更加重視 AI 初創(chuàng)企業(yè)培訓數(shù)據(jù)的來源。Radical Ventures 合作伙伴Rob Toews 強調(diào)說：

AI 在這些問題中，模型訓練數(shù)據(jù)的質(zhì)量和來源已成為最重要的焦點之一。沒有人知道未來會發(fā)生什么，但是任何在信息來源上不謹慎或者沒有策略的人 AI 初創(chuàng)企業(yè)都會落后。

在數(shù)據(jù)大戰(zhàn)中，「沉默」變成了共鳴

假如說「缺芯」是 2023 年 AI 這個行業(yè)的共識，那「缺數(shù)據(jù)」則是 2024 年度新主題。不但缺少創(chuàng)業(yè)公司，大公司更缺乏。

無論規(guī)模大小，這些公司都開始在灰色地帶徘徊，以獲取數(shù)據(jù)。

早在 2021 年，OpenAI 面臨著數(shù)據(jù)短缺的問題。

盡管有些員工提出了行為不當?shù)膿鷳n，但最終還是 OpenAI 或者寫一個語音轉(zhuǎn)文字工具？ Whisper 來將超出 100 萬小時的 YouTube 把視頻轉(zhuǎn)換成文字，用來 GPT-4 訓練。

在這次行動中，OpenAI 總裁 Greg Brockman 還親自出馬幫忙收集視頻。

據(jù)知情人士透露，當 Google 發(fā)覺 OpenAI 在做了什么之后，它并沒有透露訓斥這些損害創(chuàng)作者版權(quán)的行為，因為，Google 還要做同樣的事。

Google 發(fā)言人 Matt Bryant 回應(yīng)說，公司是對的 OpenAI 不知情的行為，也禁止未經(jīng)授權(quán)的數(shù)據(jù)捕獲。

除了 YouTube 此外，三位知情人士表示，Google 還在盯著旗下的網(wǎng)上合作文檔工具 Google Doc 數(shù)據(jù)，但其隱私政策限制了數(shù)據(jù) Google 如何使用這些數(shù)據(jù)。

去年 7 月，Google 更新隱私政策，明確表示可以通過收集網(wǎng)絡(luò)上的公共信息或者來自其他公共來源的信息來訓練 AI 模型。

對在 AI 領(lǐng)域「一大早起床，卻趕上了晚會。」的 Meta 盡管一些法律事務(wù)警告了版權(quán)問題，但最終還是決定跟隨。 OpenAI 的「行業(yè)例子」使用版權(quán)保護書籍、文章等材料。

泄露的錄音也顯示，Meta 高管們一致同意，出了問題可以用。 2015 年度作家協(xié)會訴訟 Google 案件失敗的先例是辯護。

看起來應(yīng)該是這樣 Meta 最大優(yōu)勢的 Facebook 和 Instagram，事實上，可用數(shù)據(jù)并不多，很多 Facebook 使用者刪除了他們最初發(fā)布的內(nèi)容，而社交媒體一般也不是每個人都喜歡發(fā)布長篇內(nèi)容的地方。

這類巨人不愿言說的過去，形成了 AI 行業(yè)在訓練數(shù)據(jù)上一致閃爍其詞。

Adobe 在這些企業(yè)中，很少有大型企業(yè)積極討論自己的模型培訓數(shù)據(jù)。

近期，它也「塌房」了。

Adobe 一直標榜公司與創(chuàng)作者站在同一邊，堅定地只使用自己獲得授權(quán)的圖庫來訓練模型，不會像 Midjourney、Dall-E 如此私人使用有版權(quán)保護的圖像素材進行訓練。

直至有人發(fā)現(xiàn)，Adobe 事實上，培訓數(shù)據(jù)包含了培訓數(shù)據(jù) AI 生成圖片，并生成 Adobe 同樣是知情的。

盡管 Adobe 需要強調(diào)的是，模型訓練數(shù)據(jù)只有 5% 上下圖像是 AI 產(chǎn)生的，但無論如何，這些圖像都是通過損害創(chuàng)作者的版權(quán)利益而制作的，所以并不完全是這樣?！傅赖隆埂?/p>

這個月初，Adobe 高級副總裁 Ashley Still 仍然在一次公開活動中說：

我們在推出 Firefly 有時候，一些企業(yè)客戶會來告訴我們：「你所做的事情，我們真的很感激你沒有竊取我們在網(wǎng)上的知識產(chǎn)權(quán)?！?/strong>

不清楚「塌房」這個企業(yè)客戶在消息出來之后會有什么感受？

「榨干」因特網(wǎng)之后，下一步是什么？

以前我們認為是因特網(wǎng)「廣闊無垠」，直到現(xiàn)在，大語言模型已經(jīng)存在「吃不飽」。

兩年前，科研機構(gòu) Epoch 的 Pablo Villalobos 指出，高質(zhì)量的數(shù)據(jù)很有可能在 2024 2008年中期，需求超過供給?，F(xiàn)在他們有點樂觀，認為這種情況會發(fā)生。 2028 年才出現(xiàn)。

即便如此，OpenAI 也許現(xiàn)在也已經(jīng)很忙了。

Epoch估算，GPT-4 使用的訓練數(shù)據(jù)大約是 12 萬億 token，按規(guī)模定律（Scaling Law），要訓練出被寄予厚望的人。 GPT-5 大概要 60-100 萬億 token。

按照這個標準，目前高質(zhì)量的文字數(shù)據(jù)和圖像數(shù)據(jù)的總體規(guī)模還不夠，還不夠。 10-20 萬億 token。

變化刻不容緩。

Sam Altman 以前也暗示過，OpenAI 尋找新的出路：

在我看來，那個追求龐大模型的時代即將結(jié)束。通過其它方法，我們可以讓它們變得更好。

同時，消息人士表示， OpenAI 和 Google 我們都考慮做一個系統(tǒng)，可以測量特定數(shù)據(jù)對模型訓練的貢獻程度，這樣可以為提供這些數(shù)據(jù)的人計算支付的費用，但是目前還沒有進展。

在實現(xiàn)這些開拓數(shù)據(jù)和創(chuàng)新技術(shù)之前，有一件事。 AI 創(chuàng)業(yè)者現(xiàn)在有能力但不一定愿意做的事情。 —— 提高透明度，打破沉默。

要是這樣做不到，我們怎么能相信這些公司能夠?qū)ι鐣撠熌兀?AI 商品？

本文來自微信微信官方賬號“APPSO”（ID:appsolution），作者：方嘉文，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

早安·世界｜打贏防汛救災(zāi)硬仗，廣州啟動暴雨Ⅲ級應(yīng)急響應(yīng)
如何看待AI巨頭集體崩盤？
向她致敬｜余蘇：用法律為婦兒工作增添溫暖
登革熱多發(fā)期即將到來，五一假期出境需要提前做好準備。
推動大學畢業(yè)生高質(zhì)量、充分就業(yè)的“三條專線”

項目推薦

梯影傳媒
AI云印俠
賓果智能

頻道

商界觀察
宏觀聲音
財富故事
行業(yè)趨勢
資本創(chuàng)投
老板健康
補貼政策
天九動態(tài)
早知道
老板智庫
商機速覽
大廠動態(tài)
大會活動
天九速覽

項目

全部項目
大消費
信息科技
生命健康

北京市朝陽區(qū)仰山公園8號樓

（010）53118800

友情鏈接

天九共享控股集團

版權(quán)所有? 天九共享網(wǎng)絡(luò)科技集團有限公司京ICP備17023147號-3 京公網(wǎng)安備11010502055446號

感谢您访问我们的网站，您可能还对以下资源感兴趣：
欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿
免费日韩在线观看视频一区二区|欧美a韩国a日本a|亚洲人成人在线观看无码人|国产在线无码|久久欧美伊人亚洲密AV|超碰人妻日韩女人一缎片|中文无码艹逼激情|找一下国产黄色A片|超碰中国婷婷国产无玛|国产欧美日韩久久伊人婷婷五月中文国产高清自拍|天堂网2014一区二区三区|亚洲无码文字天海翼一区二区|欧美激情日韩无码|可以免费看黄的网站|看黄片大AA精品视频网址|伊人AV综合欧美一级片播放|高潮毛片无遮挡高清在线|五月丁香伊人色色99热|亚洲无码欧美另类黄色特级电影特级片网页|欧美一级黄在线观看|综合亚洲日韩av|制服丝袜国产在线|吴码av在线观看|少妇高潮中文字幕|不用播放日本黄色|思思热在线观看视频|一区二区三区四区中日韩欧美有码|亚州AV.COM

<var id="iqysv"></var>