周鴻祎:多模態(tài)是大模型發(fā)展的必經(jīng)之路,與物聯(lián)網(wǎng)結(jié)合是下一個(gè)風(fēng)口
36 氪獲悉,近日 360 智慧生活集團(tuán)舉辦視覺(jué)大模型及 AI 硬件新品發(fā)布會(huì)。發(fā)布會(huì)中,360 推出智腦 · 視覺(jué)大模型及多款 AI 硬件產(chǎn)品,并宣布 360 智慧生活正式切入 SMB 市場(chǎng)。
360 方面表示,近年傳統(tǒng)深度學(xué)習(xí)算法在安防場(chǎng)景中的局限性愈發(fā)突出,具體表現(xiàn)為算法通用、場(chǎng)景不通用、邊端算法受限、內(nèi)存受限等。對(duì)比之下,大模型有著更好的泛化能力,有望進(jìn)一步突破傳統(tǒng)算法的精度與數(shù)據(jù)局限,也能解決傳統(tǒng)深度學(xué)習(xí)算法的數(shù)據(jù)依賴問(wèn)題。
但另一方面,當(dāng)前業(yè)內(nèi)提及大模型,更多指的是大語(yǔ)言模型,其他模態(tài)的大模型數(shù)量不多。360 認(rèn)為,增強(qiáng)多模態(tài)能力,核心要借助大語(yǔ)言模型的認(rèn)知、推理、決策能力。
于是,此次 360 智慧生活決定將視覺(jué)感知能力與 360 智腦大語(yǔ)言模型相結(jié)合,并針對(duì)安防場(chǎng)景進(jìn)行行業(yè)數(shù)據(jù)微調(diào),推出視覺(jué)及多模態(tài)大模型—— 360 智腦 · 視覺(jué)大模型。360 視覺(jué)云業(yè)務(wù)線總經(jīng)理孫浩對(duì)外介紹,360 智腦 · 視覺(jué)大模型現(xiàn)階段主要聚焦開(kāi)放目標(biāo)檢測(cè)(OVD)、圖像標(biāo)題生成、視覺(jué)問(wèn)答(VQA)三項(xiàng)能力。
會(huì)議中,360 集團(tuán)創(chuàng)始人周鴻祎也針對(duì)這一話題發(fā)表演講。
周鴻祎表示,過(guò)去的人工智能是弱人工智能,在此基礎(chǔ)上打造的智能硬件不具有真正的智能。大模型出現(xiàn)后,計(jì)算機(jī)第一次真正的理解這個(gè)世界,并能夠賦予 AIoT 真正的智能。
談及視覺(jué)大模型的研發(fā)過(guò)程,周鴻祎進(jìn)一步介紹,360 是在視覺(jué)感知能力基礎(chǔ)上,融合千億參數(shù) "360 智腦 " 大模型,基于十億級(jí)互聯(lián)網(wǎng)圖文數(shù)據(jù)進(jìn)行清洗訓(xùn)練,并針對(duì)安防場(chǎng)景百萬(wàn)級(jí)行業(yè)數(shù)據(jù)進(jìn)行微調(diào),最終推出 360 智腦 - 視覺(jué)大模型。
" 大模型將帶來(lái)一場(chǎng)新工業(yè)革命 ",周鴻祎表示,所有軟件、APP、網(wǎng)站,所有行業(yè)都值得用大模型進(jìn)行重塑,而智能硬件是硬件化的 APP。從大模型的發(fā)展趨勢(shì)來(lái)看,多模態(tài)是大模型發(fā)展的必經(jīng)之路,GPT-4 最重要的變化是擁有了多模態(tài)的處理能力。因此,周鴻祎預(yù)測(cè),多模態(tài)大模型與物聯(lián)網(wǎng)的結(jié)合將會(huì)成為下一個(gè)風(fēng)口。
以下是周鴻祎演講內(nèi)容(經(jīng)部分刪減),供讀者參考:
大家好,很高興今天來(lái)參加視覺(jué)大模型的發(fā)布。
今天主要想分享一下,現(xiàn)在正火熱的大模型和智能硬件的結(jié)合。很多人肯定很奇怪,360 已經(jīng)有了 360 智腦,就是 360 的大語(yǔ)言模型,為什么又出來(lái)一個(gè)視覺(jué)大模型呢?我還是先分享幾個(gè)我對(duì)大模型和生成式 AI 的觀點(diǎn)。
其實(shí) AIoT 這個(gè)概念已經(jīng)不新鮮了,這個(gè)行業(yè)所有做智能硬件的人都會(huì)標(biāo)榜,我不僅僅是物聯(lián)網(wǎng)設(shè)備,都是 AIoT,這個(gè) A 就是 AI。但是我們今天談到的 AIoT 的概念,可能要重新刷新過(guò)去舊的 AIoT 的概念。
實(shí)際上生成式 AI,或者叫 ChatGPT 的出現(xiàn),預(yù)示著一個(gè)真正的人工智能,或者叫強(qiáng)人工智能,或者叫超級(jí)人工智能的拐點(diǎn)真正產(chǎn)生了。原來(lái)的 AIoT,跟它聊兩句天就聊不下去了,很多音箱的功能最后就沒(méi)有人去用了,很多攝像頭的能力也只是起到一個(gè)事后錄像的作用。
那么,這次大語(yǔ)言模型的問(wèn)世,標(biāo)榜著一個(gè)真正的人工智能時(shí)代的來(lái)臨。我覺(jué)得有兩個(gè)分水嶺:
第一,過(guò)去我們做的人工智能都是垂直人工智能,為完成一個(gè)特定的任務(wù)就得有一套特定的算法,一個(gè)特定的模型,很難通用。而這次大語(yǔ)言模型它用一套算法,一套模型結(jié)構(gòu),一套訓(xùn)練的思路,解決了人工智能中很多過(guò)去很碎片化的問(wèn)題。
第二,還有一個(gè)區(qū)別,這次大語(yǔ)言模型雖然也容易給大家一個(gè)誤解,好像是只能解決語(yǔ)言的問(wèn)題。但是,在人工智能領(lǐng)域,如果把語(yǔ)言的問(wèn)題給解決了,這件事是非常了不起的,是皇冠上的明珠。人類的語(yǔ)言基本上定義了人類所有的知識(shí),如果一個(gè)大語(yǔ)言模型能夠真正地理解人類所有的語(yǔ)言,能夠很自然的做出各種交流和理解,包括各種推理,就意味著它第一次完整把人類世界的知識(shí)有了一個(gè)充分理解。
原來(lái)比如最常見(jiàn)的圖像識(shí)別,名詞叫 Computer vision,就是 CV,或者計(jì)算機(jī)視覺(jué)。實(shí)際上很多時(shí)候是在工作層面感知,像人的視網(wǎng)膜的原理。但是,人之所以能成為萬(wàn)物之靈,不光是眼睛看到了當(dāng)前的情況,所有看到的情況是可以在大腦里有相應(yīng)反應(yīng)的。所以,大語(yǔ)言模型工作在認(rèn)知層面。
我不知道有沒(méi)有人注意到,這次 OpenAI 的一個(gè)技術(shù)合伙人提到他們做視覺(jué)模型的時(shí)候,講如果你是基于大語(yǔ)言模型,完整理解這個(gè)世界的知識(shí)之上再來(lái)理解圖像,你的理解程度是非常不一樣的。
所以,我也給大家講一個(gè)觀點(diǎn),大家不要被 " 大語(yǔ)言模型 " 這五個(gè)字給弄糊涂了,就以為它只能解決語(yǔ)言問(wèn)題,錯(cuò)了。實(shí)際上大語(yǔ)言模型之所以稱為叫通用人工智能,大家應(yīng)該相信,它是在理解了我們這個(gè)世界的所有知識(shí)之后,能夠解決計(jì)算機(jī)聽(tīng)覺(jué)、視覺(jué)的很多問(wèn)題。而且未來(lái)可能在機(jī)器人控制、自動(dòng)駕駛,各個(gè)方面發(fā)揮神奇的作用。
為什么到現(xiàn)在真正的自動(dòng)駕駛沒(méi)有實(shí)現(xiàn)。一個(gè)很簡(jiǎn)單的道理,就是它們目前都是在感知層面的識(shí)別,雷達(dá)告訴你前方有障礙物,而不是在認(rèn)知層面。如果我們的人工智能不能模擬人的認(rèn)知層面的人的反應(yīng)和工作,而僅還停留在一個(gè)視網(wǎng)膜感知的層面,我想真正的自動(dòng)駕駛可能一輩子也出不來(lái)。
所以,大語(yǔ)言模型之所以被稱為叫通用人工智能,不光是在自然語(yǔ)言處理上發(fā)揮作用。它在計(jì)算機(jī)視覺(jué),在自動(dòng)駕駛等場(chǎng)景上都能有作用。將來(lái),在蛋白質(zhì)折疊分析,人類基因組序列分析等很多方面,我覺(jué)得大語(yǔ)言模型可能都會(huì)帶來(lái)各種各樣的驚喜。
今天我們?cè)诖笳Z(yǔ)言模型上取得了突破,就有能力在大語(yǔ)言模型的基礎(chǔ)上來(lái)思考,到底怎么樣能做出一個(gè)真正的 AIoT。這個(gè) AI,如果是大語(yǔ)言模型驅(qū)動(dòng)的 AI,它就是真正的強(qiáng)人工智能。
我的第二個(gè)觀點(diǎn),也想講講為什么今天我們要來(lái)講一個(gè)智能硬件的場(chǎng)景。
大語(yǔ)言模型問(wèn)世以后有很多種觀點(diǎn),但是,我覺(jué)得它肯定不是每個(gè)人上來(lái)馬上就能玩的東西。所以,我覺(jué)得大語(yǔ)言模型實(shí)際上是一個(gè)提高生產(chǎn)力的工具。它更像是電腦,更像是手機(jī)這種發(fā)明,意味著帶來(lái)一場(chǎng)工業(yè)革命級(jí)的更新。
人工智能折騰了很多年,實(shí)際上離我們很多人的日常工作和生活的場(chǎng)景還比較遙遠(yuǎn)。這次以 GPT 為代表的大模型確實(shí)讓人類的人工智能到了一個(gè) PC 時(shí)代,到了一個(gè) iPhone 時(shí)刻。
微軟給我們做了一個(gè)典范,把它所有的產(chǎn)品 " 全家桶 " 都拿大模型重塑了一遍。實(shí)際上這里我們也講過(guò)很多,比如 360 的場(chǎng)景里面瀏覽器怎么改造、搜索怎么改造,360 安全衛(wèi)士的桌面如何改造?但其實(shí)還有一個(gè)更大的領(lǐng)域,就是智能硬件。我覺(jué)得智能硬件實(shí)際上也是硬件化的 APP,那么它如何能夠與大語(yǔ)言模型結(jié)合?這場(chǎng)工業(yè)革命中,智能硬件這個(gè)場(chǎng)景將會(huì)扮演什么樣的角色?
我也和團(tuán)隊(duì)說(shuō),過(guò)去我們講互聯(lián)網(wǎng)思維,未來(lái)可能叫大模型思維,過(guò)去我們是講 " 互聯(lián)網(wǎng) +",以后可能是 " 人工智能 +"。或者以后人工智能這個(gè)詞改一下,新的人工智能可以叫 " 認(rèn)知型人工智能 ",或者叫 " 生成式人工智能 ",或者叫 " 大語(yǔ)言模型人工智能 ",跟原來(lái)老的人工智能概念不太一樣。
我想再分享一個(gè)觀點(diǎn)。大語(yǔ)言模型發(fā)展到現(xiàn)在,有一個(gè)巨大的方向,就是它要從單一的識(shí)別文字到能夠識(shí)別圖片、視頻、語(yǔ)音,就是我們所說(shuō)的多模態(tài)。GPT-3.5 你可以認(rèn)為是一個(gè)強(qiáng)人工智能的拐點(diǎn),GPT-4.0 比 GPT-3.5 領(lǐng)先了很多,國(guó)內(nèi)我們很多同行做的產(chǎn)品,包括 360 的智腦離 GPT-3.5 比較近了。但是 GPT-4.0 如果是 100 分,國(guó)內(nèi)的水平大概也就在 70 分左右。
GPT-4.0 除了對(duì)知識(shí)的理解更加深入,推理更加復(fù)雜,其中有一個(gè)很重要的要求就是它有多模態(tài)的處理能力。比如文生圖,就是你提出要求,它生成圖片,這個(gè)只是完成了多模態(tài)的輸出部分。實(shí)際上真正的多模態(tài)是你能給它一張圖片、視頻,大語(yǔ)言模型不僅能夠認(rèn)出來(lái)這張圖上有誰(shuí),最重要的是能認(rèn)出來(lái)圖上的人都在干什么,他們互相之間有什么關(guān)系,能讀出圖里邊蘊(yùn)含的意思,這個(gè)沒(méi)有對(duì)人類知識(shí)的了解,是不可能做到的。
所以,現(xiàn)在整個(gè)大模型的發(fā)展之路必然是多模態(tài),多模態(tài)就是能夠輸入圖像和視頻,能夠輸出圖像和視頻,能夠輸入聲音和音樂(lè),也能夠輸出聲音和音樂(lè)。當(dāng)然,現(xiàn)在一個(gè)完整的多模態(tài)的大模型全世界不存在,GPT-4 也只是宣布了有這個(gè)能力,這個(gè)能力還沒(méi)有對(duì)外輸出,這也是代表了大模型下一步皇冠上的明珠。所以,今天我們把我們?cè)诙嗄B(tài)上的一部分成果會(huì)拿來(lái)給大家做一些展示。
如果有了多模態(tài)大模型之后,我覺(jué)得和物聯(lián)網(wǎng)結(jié)合就可能變成下一個(gè)風(fēng)口。一直有人說(shuō)機(jī)器人和大模型之間的關(guān)系。實(shí)際上把很多智能硬件,包括機(jī)器人和大語(yǔ)言模型接起來(lái),就相當(dāng)于給很多智能硬件有了靈魂,有了真正的大腦,不僅有了感知的能力,還有了認(rèn)知的能力。
我曾經(jīng)開(kāi)玩笑,如果 ChatGPT 有了自我意識(shí)之后,又有了能下單的能力,它買(mǎi)的第一個(gè)物品是什么?我說(shuō)它一定首先給自己買(mǎi)一個(gè)智能攝像頭給自己接上,因?yàn)樗湍苷嬲乜炊@個(gè)世界。我們還有麥克風(fēng),我們有揚(yáng)聲器,接上大模型之后,相當(dāng)于它有了耳朵、有了嘴巴。
360 為什么能做視覺(jué)大模型呢?第一個(gè)基礎(chǔ)是說(shuō) 360 已經(jīng)訓(xùn)練了一個(gè)千億參數(shù)的智腦,一個(gè)基于文字,基于自然語(yǔ)言理解的一個(gè)認(rèn)知大模型。第二個(gè) 360 做智能攝像頭也做了有好多年了,有百億級(jí)的安防行業(yè)數(shù)據(jù)可以進(jìn)行訓(xùn)練和微調(diào)。所以這次我們基于這種安防的背景,能夠去訓(xùn)練一個(gè)視覺(jué)大模型。
原來(lái)我做攝像頭的時(shí)候,最大的感慨是什么?我們的攝像頭無(wú)法事前報(bào)警,我們?cè)诤芏嗟胤桨l(fā)揮的作用就是出了事之后去找攝像頭錄像,來(lái)做事后的事故的復(fù)核。比如說(shuō),我們聽(tīng)到很多家庭里邊老人在起居室里摔倒了,或者小孩兒爬到一個(gè)沒(méi)有窗戶的危險(xiǎn)地帶向上攀爬,原來(lái)的攝像頭可能能認(rèn)出來(lái)有老人,有小孩兒,但是他不能理解畫(huà)面的語(yǔ)義,所以它也就不能做出正確的判斷。
但是,當(dāng)你有了一個(gè)大語(yǔ)言模型多模態(tài)能力為支撐的,真正的認(rèn)知型大腦的時(shí)候,當(dāng)你的攝像頭看到這個(gè)場(chǎng)景的時(shí)候,你自然就會(huì)聯(lián)想起來(lái)這個(gè)老人可能處在危險(xiǎn)之中,這個(gè)小孩兒可能現(xiàn)在有可能掉到窗戶外面去,從而就能夠提前預(yù)警,發(fā)布警告。
現(xiàn)在我們有兩個(gè)團(tuán)隊(duì)在密切配合,也就是說(shuō),大語(yǔ)言模型團(tuán)隊(duì)積極幫助我們另一個(gè)團(tuán)隊(duì)構(gòu)造視覺(jué)的模型。這個(gè)視覺(jué)大模型構(gòu)造出來(lái)之后,又可以成為我們 360 大語(yǔ)言模型的一部分,構(gòu)成我們多模態(tài)的能力。有了多模態(tài)能力的大模型,它增強(qiáng)了 360 智腦能夠看懂圖片,看懂視頻的能力?,F(xiàn)在,聽(tīng)見(jiàn)聲音的能力還在研發(fā),一旦把聽(tīng)懂聲音,看懂圖片,能夠連續(xù)看懂多組圖片的能力合在一起就變成了識(shí)別視頻的能力。
之前大家所設(shè)想的場(chǎng)景還是以偏軟件、網(wǎng)站、應(yīng)用為主,這次我們希望讓大模型的能力從數(shù)字世界走向物理世界,基于多模態(tài)技術(shù)的大語(yǔ)言模型,和智能硬件的結(jié)合是下一個(gè)風(fēng)口。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






