欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

周鴻祎：多模態(tài)是大模型發(fā)展的必經(jīng)之路，與物聯(lián)網(wǎng)結(jié)合是下一個(gè)風(fēng)口

商界觀察

2023-06-04

36 氪獲悉，近日 360 智慧生活集團(tuán)舉辦視覺(jué)大模型及 AI 硬件新品發(fā)布會(huì)。發(fā)布會(huì)中，360 推出智腦 · 視覺(jué)大模型及多款 AI 硬件產(chǎn)品，并宣布 360 智慧生活正式切入 SMB 市場(chǎng)。

360 方面表示，近年傳統(tǒng)深度學(xué)習(xí)算法在安防場(chǎng)景中的局限性愈發(fā)突出，具體表現(xiàn)為算法通用、場(chǎng)景不通用、邊端算法受限、內(nèi)存受限等。對(duì)比之下，大模型有著更好的泛化能力，有望進(jìn)一步突破傳統(tǒng)算法的精度與數(shù)據(jù)局限，也能解決傳統(tǒng)深度學(xué)習(xí)算法的數(shù)據(jù)依賴問(wèn)題。

但另一方面，當(dāng)前業(yè)內(nèi)提及大模型，更多指的是大語(yǔ)言模型，其他模態(tài)的大模型數(shù)量不多。360 認(rèn)為，增強(qiáng)多模態(tài)能力，核心要借助大語(yǔ)言模型的認(rèn)知、推理、決策能力。

于是，此次 360 智慧生活決定將視覺(jué)感知能力與 360 智腦大語(yǔ)言模型相結(jié)合，并針對(duì)安防場(chǎng)景進(jìn)行行業(yè)數(shù)據(jù)微調(diào)，推出視覺(jué)及多模態(tài)大模型—— 360 智腦 · 視覺(jué)大模型。360 視覺(jué)云業(yè)務(wù)線總經(jīng)理孫浩對(duì)外介紹，360 智腦 · 視覺(jué)大模型現(xiàn)階段主要聚焦開(kāi)放目標(biāo)檢測(cè)（OVD）、圖像標(biāo)題生成、視覺(jué)問(wèn)答（VQA）三項(xiàng)能力。

會(huì)議中，360 集團(tuán)創(chuàng)始人周鴻祎也針對(duì)這一話題發(fā)表演講。

周鴻祎表示，過(guò)去的人工智能是弱人工智能，在此基礎(chǔ)上打造的智能硬件不具有真正的智能。大模型出現(xiàn)后，計(jì)算機(jī)第一次真正的理解這個(gè)世界，并能夠賦予 AIoT 真正的智能。

談及視覺(jué)大模型的研發(fā)過(guò)程，周鴻祎進(jìn)一步介紹，360 是在視覺(jué)感知能力基礎(chǔ)上，融合千億參數(shù) "360 智腦 " 大模型，基于十億級(jí)互聯(lián)網(wǎng)圖文數(shù)據(jù)進(jìn)行清洗訓(xùn)練，并針對(duì)安防場(chǎng)景百萬(wàn)級(jí)行業(yè)數(shù)據(jù)進(jìn)行微調(diào)，最終推出 360 智腦 - 視覺(jué)大模型。

" 大模型將帶來(lái)一場(chǎng)新工業(yè)革命 "，周鴻祎表示，所有軟件、APP、網(wǎng)站，所有行業(yè)都值得用大模型進(jìn)行重塑，而智能硬件是硬件化的 APP。從大模型的發(fā)展趨勢(shì)來(lái)看，多模態(tài)是大模型發(fā)展的必經(jīng)之路，GPT-4 最重要的變化是擁有了多模態(tài)的處理能力。因此，周鴻祎預(yù)測(cè)，多模態(tài)大模型與物聯(lián)網(wǎng)的結(jié)合將會(huì)成為下一個(gè)風(fēng)口。

以下是周鴻祎演講內(nèi)容（經(jīng)部分刪減），供讀者參考：

大家好，很高興今天來(lái)參加視覺(jué)大模型的發(fā)布。

今天主要想分享一下，現(xiàn)在正火熱的大模型和智能硬件的結(jié)合。很多人肯定很奇怪，360 已經(jīng)有了 360 智腦，就是 360 的大語(yǔ)言模型，為什么又出來(lái)一個(gè)視覺(jué)大模型呢？我還是先分享幾個(gè)我對(duì)大模型和生成式 AI 的觀點(diǎn)。

其實(shí) AIoT 這個(gè)概念已經(jīng)不新鮮了，這個(gè)行業(yè)所有做智能硬件的人都會(huì)標(biāo)榜，我不僅僅是物聯(lián)網(wǎng)設(shè)備，都是 AIoT，這個(gè) A 就是 AI。但是我們今天談到的 AIoT 的概念，可能要重新刷新過(guò)去舊的 AIoT 的概念。

實(shí)際上生成式 AI，或者叫 ChatGPT 的出現(xiàn)，預(yù)示著一個(gè)真正的人工智能，或者叫強(qiáng)人工智能，或者叫超級(jí)人工智能的拐點(diǎn)真正產(chǎn)生了。原來(lái)的 AIoT，跟它聊兩句天就聊不下去了，很多音箱的功能最后就沒(méi)有人去用了，很多攝像頭的能力也只是起到一個(gè)事后錄像的作用。

那么，這次大語(yǔ)言模型的問(wèn)世，標(biāo)榜著一個(gè)真正的人工智能時(shí)代的來(lái)臨。我覺(jué)得有兩個(gè)分水嶺：

第一，過(guò)去我們做的人工智能都是垂直人工智能，為完成一個(gè)特定的任務(wù)就得有一套特定的算法，一個(gè)特定的模型，很難通用。而這次大語(yǔ)言模型它用一套算法，一套模型結(jié)構(gòu)，一套訓(xùn)練的思路，解決了人工智能中很多過(guò)去很碎片化的問(wèn)題。

第二，還有一個(gè)區(qū)別，這次大語(yǔ)言模型雖然也容易給大家一個(gè)誤解，好像是只能解決語(yǔ)言的問(wèn)題。但是，在人工智能領(lǐng)域，如果把語(yǔ)言的問(wèn)題給解決了，這件事是非常了不起的，是皇冠上的明珠。人類的語(yǔ)言基本上定義了人類所有的知識(shí)，如果一個(gè)大語(yǔ)言模型能夠真正地理解人類所有的語(yǔ)言，能夠很自然的做出各種交流和理解，包括各種推理，就意味著它第一次完整把人類世界的知識(shí)有了一個(gè)充分理解。

原來(lái)比如最常見(jiàn)的圖像識(shí)別，名詞叫 Computer vision，就是 CV，或者計(jì)算機(jī)視覺(jué)。實(shí)際上很多時(shí)候是在工作層面感知，像人的視網(wǎng)膜的原理。但是，人之所以能成為萬(wàn)物之靈，不光是眼睛看到了當(dāng)前的情況，所有看到的情況是可以在大腦里有相應(yīng)反應(yīng)的。所以，大語(yǔ)言模型工作在認(rèn)知層面。

我不知道有沒(méi)有人注意到，這次 OpenAI 的一個(gè)技術(shù)合伙人提到他們做視覺(jué)模型的時(shí)候，講如果你是基于大語(yǔ)言模型，完整理解這個(gè)世界的知識(shí)之上再來(lái)理解圖像，你的理解程度是非常不一樣的。

所以，我也給大家講一個(gè)觀點(diǎn)，大家不要被 " 大語(yǔ)言模型 " 這五個(gè)字給弄糊涂了，就以為它只能解決語(yǔ)言問(wèn)題，錯(cuò)了。實(shí)際上大語(yǔ)言模型之所以稱為叫通用人工智能，大家應(yīng)該相信，它是在理解了我們這個(gè)世界的所有知識(shí)之后，能夠解決計(jì)算機(jī)聽(tīng)覺(jué)、視覺(jué)的很多問(wèn)題。而且未來(lái)可能在機(jī)器人控制、自動(dòng)駕駛，各個(gè)方面發(fā)揮神奇的作用。

為什么到現(xiàn)在真正的自動(dòng)駕駛沒(méi)有實(shí)現(xiàn)。一個(gè)很簡(jiǎn)單的道理，就是它們目前都是在感知層面的識(shí)別，雷達(dá)告訴你前方有障礙物，而不是在認(rèn)知層面。如果我們的人工智能不能模擬人的認(rèn)知層面的人的反應(yīng)和工作，而僅還停留在一個(gè)視網(wǎng)膜感知的層面，我想真正的自動(dòng)駕駛可能一輩子也出不來(lái)。

所以，大語(yǔ)言模型之所以被稱為叫通用人工智能，不光是在自然語(yǔ)言處理上發(fā)揮作用。它在計(jì)算機(jī)視覺(jué)，在自動(dòng)駕駛等場(chǎng)景上都能有作用。將來(lái)，在蛋白質(zhì)折疊分析，人類基因組序列分析等很多方面，我覺(jué)得大語(yǔ)言模型可能都會(huì)帶來(lái)各種各樣的驚喜。

今天我們?cè)诖笳Z(yǔ)言模型上取得了突破，就有能力在大語(yǔ)言模型的基礎(chǔ)上來(lái)思考，到底怎么樣能做出一個(gè)真正的 AIoT。這個(gè) AI，如果是大語(yǔ)言模型驅(qū)動(dòng)的 AI，它就是真正的強(qiáng)人工智能。

我的第二個(gè)觀點(diǎn)，也想講講為什么今天我們要來(lái)講一個(gè)智能硬件的場(chǎng)景。

大語(yǔ)言模型問(wèn)世以后有很多種觀點(diǎn)，但是，我覺(jué)得它肯定不是每個(gè)人上來(lái)馬上就能玩的東西。所以，我覺(jué)得大語(yǔ)言模型實(shí)際上是一個(gè)提高生產(chǎn)力的工具。它更像是電腦，更像是手機(jī)這種發(fā)明，意味著帶來(lái)一場(chǎng)工業(yè)革命級(jí)的更新。

人工智能折騰了很多年，實(shí)際上離我們很多人的日常工作和生活的場(chǎng)景還比較遙遠(yuǎn)。這次以 GPT 為代表的大模型確實(shí)讓人類的人工智能到了一個(gè) PC 時(shí)代，到了一個(gè) iPhone 時(shí)刻。

微軟給我們做了一個(gè)典范，把它所有的產(chǎn)品 " 全家桶 " 都拿大模型重塑了一遍。實(shí)際上這里我們也講過(guò)很多，比如 360 的場(chǎng)景里面瀏覽器怎么改造、搜索怎么改造，360 安全衛(wèi)士的桌面如何改造？但其實(shí)還有一個(gè)更大的領(lǐng)域，就是智能硬件。我覺(jué)得智能硬件實(shí)際上也是硬件化的 APP，那么它如何能夠與大語(yǔ)言模型結(jié)合？這場(chǎng)工業(yè)革命中，智能硬件這個(gè)場(chǎng)景將會(huì)扮演什么樣的角色？

我也和團(tuán)隊(duì)說(shuō)，過(guò)去我們講互聯(lián)網(wǎng)思維，未來(lái)可能叫大模型思維，過(guò)去我們是講 " 互聯(lián)網(wǎng) +"，以后可能是 " 人工智能 +"。或者以后人工智能這個(gè)詞改一下，新的人工智能可以叫 " 認(rèn)知型人工智能 "，或者叫 " 生成式人工智能 "，或者叫 " 大語(yǔ)言模型人工智能 "，跟原來(lái)老的人工智能概念不太一樣。

我想再分享一個(gè)觀點(diǎn)。大語(yǔ)言模型發(fā)展到現(xiàn)在，有一個(gè)巨大的方向，就是它要從單一的識(shí)別文字到能夠識(shí)別圖片、視頻、語(yǔ)音，就是我們所說(shuō)的多模態(tài)。GPT-3.5 你可以認(rèn)為是一個(gè)強(qiáng)人工智能的拐點(diǎn)，GPT-4.0 比 GPT-3.5 領(lǐng)先了很多，國(guó)內(nèi)我們很多同行做的產(chǎn)品，包括 360 的智腦離 GPT-3.5 比較近了。但是 GPT-4.0 如果是 100 分，國(guó)內(nèi)的水平大概也就在 70 分左右。

GPT-4.0 除了對(duì)知識(shí)的理解更加深入，推理更加復(fù)雜，其中有一個(gè)很重要的要求就是它有多模態(tài)的處理能力。比如文生圖，就是你提出要求，它生成圖片，這個(gè)只是完成了多模態(tài)的輸出部分。實(shí)際上真正的多模態(tài)是你能給它一張圖片、視頻，大語(yǔ)言模型不僅能夠認(rèn)出來(lái)這張圖上有誰(shuí)，最重要的是能認(rèn)出來(lái)圖上的人都在干什么，他們互相之間有什么關(guān)系，能讀出圖里邊蘊(yùn)含的意思，這個(gè)沒(méi)有對(duì)人類知識(shí)的了解，是不可能做到的。

所以，現(xiàn)在整個(gè)大模型的發(fā)展之路必然是多模態(tài)，多模態(tài)就是能夠輸入圖像和視頻，能夠輸出圖像和視頻，能夠輸入聲音和音樂(lè)，也能夠輸出聲音和音樂(lè)。當(dāng)然，現(xiàn)在一個(gè)完整的多模態(tài)的大模型全世界不存在，GPT-4 也只是宣布了有這個(gè)能力，這個(gè)能力還沒(méi)有對(duì)外輸出，這也是代表了大模型下一步皇冠上的明珠。所以，今天我們把我們?cè)诙嗄B(tài)上的一部分成果會(huì)拿來(lái)給大家做一些展示。

如果有了多模態(tài)大模型之后，我覺(jué)得和物聯(lián)網(wǎng)結(jié)合就可能變成下一個(gè)風(fēng)口。一直有人說(shuō)機(jī)器人和大模型之間的關(guān)系。實(shí)際上把很多智能硬件，包括機(jī)器人和大語(yǔ)言模型接起來(lái)，就相當(dāng)于給很多智能硬件有了靈魂，有了真正的大腦，不僅有了感知的能力，還有了認(rèn)知的能力。

我曾經(jīng)開(kāi)玩笑，如果 ChatGPT 有了自我意識(shí)之后，又有了能下單的能力，它買(mǎi)的第一個(gè)物品是什么？我說(shuō)它一定首先給自己買(mǎi)一個(gè)智能攝像頭給自己接上，因?yàn)樗湍苷嬲乜炊@個(gè)世界。我們還有麥克風(fēng)，我們有揚(yáng)聲器，接上大模型之后，相當(dāng)于它有了耳朵、有了嘴巴。

360 為什么能做視覺(jué)大模型呢？第一個(gè)基礎(chǔ)是說(shuō) 360 已經(jīng)訓(xùn)練了一個(gè)千億參數(shù)的智腦，一個(gè)基于文字，基于自然語(yǔ)言理解的一個(gè)認(rèn)知大模型。第二個(gè) 360 做智能攝像頭也做了有好多年了，有百億級(jí)的安防行業(yè)數(shù)據(jù)可以進(jìn)行訓(xùn)練和微調(diào)。所以這次我們基于這種安防的背景，能夠去訓(xùn)練一個(gè)視覺(jué)大模型。

原來(lái)我做攝像頭的時(shí)候，最大的感慨是什么？我們的攝像頭無(wú)法事前報(bào)警，我們?cè)诤芏嗟胤桨l(fā)揮的作用就是出了事之后去找攝像頭錄像，來(lái)做事后的事故的復(fù)核。比如說(shuō)，我們聽(tīng)到很多家庭里邊老人在起居室里摔倒了，或者小孩兒爬到一個(gè)沒(méi)有窗戶的危險(xiǎn)地帶向上攀爬，原來(lái)的攝像頭可能能認(rèn)出來(lái)有老人，有小孩兒，但是他不能理解畫(huà)面的語(yǔ)義，所以它也就不能做出正確的判斷。

但是，當(dāng)你有了一個(gè)大語(yǔ)言模型多模態(tài)能力為支撐的，真正的認(rèn)知型大腦的時(shí)候，當(dāng)你的攝像頭看到這個(gè)場(chǎng)景的時(shí)候，你自然就會(huì)聯(lián)想起來(lái)這個(gè)老人可能處在危險(xiǎn)之中，這個(gè)小孩兒可能現(xiàn)在有可能掉到窗戶外面去，從而就能夠提前預(yù)警，發(fā)布警告。

現(xiàn)在我們有兩個(gè)團(tuán)隊(duì)在密切配合，也就是說(shuō)，大語(yǔ)言模型團(tuán)隊(duì)積極幫助我們另一個(gè)團(tuán)隊(duì)構(gòu)造視覺(jué)的模型。這個(gè)視覺(jué)大模型構(gòu)造出來(lái)之后，又可以成為我們 360 大語(yǔ)言模型的一部分，構(gòu)成我們多模態(tài)的能力。有了多模態(tài)能力的大模型，它增強(qiáng)了 360 智腦能夠看懂圖片，看懂視頻的能力?，F(xiàn)在，聽(tīng)見(jiàn)聲音的能力還在研發(fā)，一旦把聽(tīng)懂聲音，看懂圖片，能夠連續(xù)看懂多組圖片的能力合在一起就變成了識(shí)別視頻的能力。

之前大家所設(shè)想的場(chǎng)景還是以偏軟件、網(wǎng)站、應(yīng)用為主，這次我們希望讓大模型的能力從數(shù)字世界走向物理世界，基于多模態(tài)技術(shù)的大語(yǔ)言模型，和智能硬件的結(jié)合是下一個(gè)風(fēng)口。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

馬化騰“收緊隊(duì)形”刷屏！椰樹(shù)正面回應(yīng)“擦邊直播”：做自己｜老板早知道

“特種兵旅行”后，年輕人愛(ài)上Citywalk

買(mǎi)車(chē)容易修車(chē)難，新能源汽修人才缺口或達(dá)80%

日系車(chē)企抱團(tuán)，能否阻擋電動(dòng)化？

Tims咖啡擠入爭(zhēng)奪加盟商的擂臺(tái)

項(xiàng)目推薦

<td id="scod0"><strong id="scod0"><tt id="scod0"></tt></strong></td>

<mark id="scod0"><strong id="scod0"></strong></mark>