文心一言對比ChatGPT:百度催生“不完美小孩”
3月16日,百度發(fā)布大語言模型、生成式AI產(chǎn)品“文心一言”,成為搶在谷歌、Meta(原Facebook)等科技巨頭前,繼微軟Bing(必應)后第二家發(fā)布大語言模型的互聯(lián)網(wǎng)大廠。
“很多人都問過我,你們?yōu)槭裁船F(xiàn)在發(fā)布,你們是不是真的ready了。”百度創(chuàng)始人、董事長兼CEO李彥宏開場回答了百度為什么要在現(xiàn)在發(fā)布文心一言這一問題。簡而言之,有三點理由:
1.文心一言是百度過去數(shù)年技術投入的自然結(jié)果,文心大模型早于2019年就已發(fā)布;
2.百度自己的業(yè)務有使用的需求,百度的合作伙伴也有急迫的需求;
3.發(fā)布后大模型會獲得真實反饋,能力提升更快。
“從我的體驗來說,文心一言不能說是完美?!崩顝┖晏寡裕男囊谎缘哪芰€在不斷的完善過程中,會有驚喜也會有錯誤,但未來一定會是日新月異的發(fā)展速度。“我們都希望文心一言能快點成長,讓所有的人都能從中獲益?!?/strong>

據(jù)百度官方,自2月份百度官宣“文心一言”以來,已有超過650家企業(yè)宣布接入文心一言生態(tài)。另外,3月16日起,百度文心一言將進行首批用戶邀請,受邀用戶可通過邀請測試碼進行體驗;百度智能云即將面向企業(yè)客戶開放文心一言API接口調(diào)用服務;普通用戶也可通過百度智能云官網(wǎng)預約加入文心一言服務測試。
文心一言發(fā)布會上,李彥宏從文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成五個使用場景演示了文心一言目前的能力。然而資本市場對發(fā)布會效果似乎并不滿意,發(fā)布會進行過程中,百度集團港股一度跌超10%。
提前錄制的現(xiàn)場演示
與昨日Open AI發(fā)布GPT-4時的現(xiàn)場演示不同,文心一言演示的是提前錄制好的演示內(nèi)容部分。在GPT-4的襯托下,文心一言的表現(xiàn)確顯差強人意。
在語言類任務的測試中,GPT-4已經(jīng)可以在律師考試、GRE Quantitative、LSAT等測試中獲得較為優(yōu)異的成績,分數(shù)在應試者的前10%左右。GPT-4甚至具備“幽默感”,能夠讀懂表情包為什么可笑,華泰證券認為,理解表情包表明GPT-4能夠在一定程度上讀懂隱喻、抽象和類比,表明其具備更廣泛的常識。長期來看,具備常識是實現(xiàn)通用智能的重要一環(huán)。

而文心一言目前展示的相關能力,還在回答《三體》的作者是誰?電視劇角色扮演者是誰?等事實性問題。
在面對“如何續(xù)寫《三體》?于和偉和張魯一有哪些共同點?”等問題時,在筆者看來雖然刻板,但從目前展示出的相關能力來看,基本能達到ChatGPT(GPT-3.5)所呈現(xiàn)出來的效果。

在數(shù)理推算的測試中,GPT-4通過了美國大學入學考試 SAT,滿分800分的數(shù)學測試拿到了700分,超過了89%的人類。甚至可以按照自己的人設循序漸進的引導人類學習線性方程式。

而目前文心一言在數(shù)理推算方面僅展示出了解決“雞兔同籠”經(jīng)典題的能力。

在多模態(tài)生成方面,GPT-4可以在10秒內(nèi)將一個用紙筆畫出的粗略網(wǎng)站草圖迅速生成現(xiàn)實,也可以通過一張圖片識別出里面的食材并生成食譜。文心一言目前展示出來的能力則在根據(jù)文字生成圖片及視頻上。
值得注意的是,GPT-4在多國語言測試中均有良好表現(xiàn),能讀懂法語寫成的物理題,中文普通話在測試中的準確度也有80.1%。

不可否認,文心一言所展現(xiàn)出來的能力確不如GPT-4,但相比ChatGPT發(fā)布前的人工智能表現(xiàn)已有較大提升。
而作為一項可能顛覆傳統(tǒng)搜索行業(yè)的技術,文心一言對百度的重要性不言而喻。
“百度NLP(Natural Language Processing 自然語言處理)的人幾乎全部調(diào)去做一言了,李彥宏親自掛帥?!币晃唤咏俣鹊娜耸扛嬖V《深網(wǎng)》,工作地點位于深圳的百度NLP也被臨時調(diào)去了北京。
在文心一言發(fā)布前兩天,《深網(wǎng)》探訪山西省陽泉市百度智算中心見到了文心一言的部分“心臟”——一間在2月底升級完成的服務器組機房。建成后服務器連日測試,探訪當天,服務器仍壓力測試到了凌晨4點。
“看來百度真是下血本了,還專門建一個專用機房?!鄙鲜鋈耸肯颉渡罹W(wǎng)》說,百度現(xiàn)有的數(shù)據(jù)中心用于訓練文心一言也是沒問題的。
《深網(wǎng)》了解到文心一言服務器組機房一部分在陽泉智算中心計算(其他智算中心也在支持),陽泉機房內(nèi)共有超200個機柜位。此前《財經(jīng)十一人》曾測算,一臺搭載英偉達A800 GPU的服務器成本超40萬元。故文心一言機房成本或在億元左右。(因目前暫不確定文心一言機房所用的GPU型號及數(shù)量,預估成本僅供參考。)
百度智能云云計算產(chǎn)品解決方案和運營部總經(jīng)理宋飛稱,不管是針對文心一言還是其他,打造智能計算的基礎設施肯定是有差別的,“我們的目標就是滿足使用需求”。
IT領域大量崗位或被淘汰
不論是百度的“文心一言”還是Open AI新發(fā)布的“GPT-4”,本質(zhì)都是大模型。
“(如果)把機器學習比喻成大學生學習,大模型就相當于提供了一批非常優(yōu)秀的高中生,他們已經(jīng)具備了很好的通用能力。”宋飛稱,企業(yè)應用大模型就相當于高中生選專業(yè),在一個專業(yè)領域再補充學習專業(yè)知識即可。以前的模型開發(fā)相當于從小學開始培養(yǎng),“這個時間和成本是不一樣的?!?/p>
相比起早期需要大量人工標注數(shù)據(jù)“投喂”AI的訓練模式,如今大模型已經(jīng)可以使用無標注數(shù)據(jù)進行訓練,且有自監(jiān)督學習的能力。“大模型帶來的是模型效果最優(yōu),對于場景標注數(shù)據(jù)更少?!卑俣戎悄茉艫I平臺部解決方案架構師孫健說,在產(chǎn)業(yè)應用大模型的過程里面,用得越多,大模型也會越來越“聰明”。
業(yè)內(nèi)預測,隨著大模型能力的不斷發(fā)展,大模型將出現(xiàn)“涌現(xiàn)”現(xiàn)象。
宋飛解釋稱,人工智能的核心思想就是模擬人腦的思考過程,人腦遠比如今最大的大模型還要復雜幾十倍上百倍,因此未來發(fā)展還會有大的變化?!叭祟愐彩且驗槟X容量到了一定程度后,有智慧或者說意識的產(chǎn)生,這些大模型也是類似的邏輯。”
“在科學領域這種現(xiàn)象叫涌現(xiàn)。通俗一點來講就是開竅了?!?/strong>孫健稱,當參數(shù)規(guī)模到達一定量的時候,大模型或?qū)⒛芫邆湟欢ǚ夯?、推理跟邏輯能力?/p> 2022年,Google、斯坦福大學、北卡教堂山分校、DeepMind聯(lián)合發(fā)表的論文《Emergent Abilities of Large Language Models》中,也提到了“隨著模型變大,很多任務性能都能可預測的提升,但一些任務不是這樣的。”即從量變到質(zhì)變,出現(xiàn)“相變”,從而使大模型有了智能上的飛躍。 美國紐約州立大學石溪分校計算機系和應用數(shù)學系終身教授顧險峰教授稱,這和嬰兒學習語言類似。牙牙學語的時候記憶了詞匯,但無法理解,講的話也常常詞不達意。但隨著頻繁使用語言和大人交流,接觸文學作品、影視節(jié)目,詞匯間的搭配日益固定下來,表達日益精準,“終于有一天開始有了自己特有的文采?!?/p> 論文《Emergent Abilities of Large Language Models》研究中考察了小樣本提示任務中各種模型的涌現(xiàn)能力 “涌現(xiàn)”現(xiàn)象放在自然界里,則類似蟻群和黏菌。單獨一個螞蟻沒有智力行為,但聚在一起形成蟻群則像一個有智慧的小型社會,有嚴格的分工。黏菌是一種單細胞微生物,但聚在一起時可以避開危險,輕松走出迷宮,甚至能為一個大城市設計復雜的交通網(wǎng)絡。 因此有開發(fā)者認為,涌現(xiàn)不是“人多力量大”,也不是“量變產(chǎn)生質(zhì)變”,它是一個“一加一大于二”的現(xiàn)象,更像是一種群體的“進化”。 大模型“涌現(xiàn)”現(xiàn)象出現(xiàn)的那天,或許將是強AI誕生之日。技術變革勢必帶來行業(yè)變革,正如工業(yè)化后大量手工崗被淘汰。顧險峰教授認為,在過去幾十年的IT領域,大量的工作是“重復發(fā)明輪子”,AI的發(fā)展會大量減少這個層次的工作機會。年輕人更應該花時間學習現(xiàn)代數(shù)學等基礎科學,“通?,F(xiàn)代數(shù)學需要更加抽象的思維,概念理解的難度遠超過工程類的課程。” “如果我們問ChatGPT有關計算機編程的工程方面的問題,ChatCPT對答如流;如我們問ChatGPT關于代數(shù)拓撲、幾何方面的算法,ChatGPT無法給出令人滿意的回答。”顧險峰教授稱,可以預見,AI的發(fā)展迫使人類從事更加復雜深刻、更加需要創(chuàng)造性的智力勞動,而這需要更加先進現(xiàn)代的基礎理論作為支撐。 本文來自微信公眾號“深網(wǎng)騰訊新聞”(ID:qqshenwang),作者:程瀟熠,36氪經(jīng)授權發(fā)布。 本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。 免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com







