欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

阿里大模型敢對標GPT-3.5?我們讓GPT-4考考它們 還有百度

2023-04-10

瘋了瘋了,大語言模型又迎來一位參賽選手,它便是阿里巴巴版本的 GPT ——通義千問。



說實話,在大伙們的印象中,AI 可能并不是阿里的第一金字招牌。


但其實,最近幾年阿里攢了不少狠貨,不管是平頭哥的 AI 芯片、阿里云的 AI 云服務,還是達摩院的 AI 算法,他們還創(chuàng)建了國內最大的 AI 模型服務社區(qū) “ 魔搭 ”。


這么來看,阿里在人工智能領域,其實還是有不少底子的,甚至可以說是個有軟有硬的全能選手。


所以在百度之后,阿里成為第二個拿出大模型的選手,也就不足為奇了。


再加上,一直有消息說阿里曾研發(fā)出世界首個突破 10 萬億參數的 AI 大模型。



在阿里 GPT 出現的第一時間,真想法子整到了通義千問的測試賬號。


咱廢話也不多說了,為此,我們特邀了兩位“ 差評 AI 友誼賽 ”老朋友 ChatGPT 和文心一言。


接下來就是真正的考驗時刻了!



語義理解方面,我們直接上難度,做一下高考級別的詩詞鑒賞,選用的是差評君很喜歡的《 憶秦娥·婁山關 》。


向下滑動▼





通義千問的賞析非常到位,甚至懷疑是不是網上直接扒來的,我們還去網上查了重,在此鄭重道歉!


這里要批評 ChatGPT 3.5 又開始典型的胡編亂造,居然把這首詞說成是王昌齡的《出塞》,而且賞析也是車轱轆話。


文心一言的回答也不錯,大方向對了,可惜評價有些表面。


我們又試了下喜聞樂見的寫代碼測試。


讓三個 AI 用 js 生成一個可以隨著每次點擊改變顏色的按鈕,還有些其它的附加條件。





通義千問,寫了一大堆,但最終沒能寫完整個代碼,我們嘗試讓它繼續(xù)也沒能成功。文心一言的結果也差不了太多,就實現了個按鈕。


但是 ChatGPT 非常優(yōu)雅地實現了這個功能。


看來國內的不管是通義還是文心,在代碼這塊都遠遠遜色于 ChatGPT。


測完了代碼我們又嘗試測了一下 3 個AI的數學能力,用的還是經典問題“ 青蛙跳井 ”。


向下滑動▼





通義千問直愣愣地掉進了我們挖的坑。


ChatGPT 好像識別了這個陷阱,但搞混了幾個數字,最終還是做錯了。


而文心一言,簡潔明了一個公式就答對了問題。


看到這里,大家估計對通義也有個大概的了解了。



其實作為大語言模型的基本特性,非常重要就是學習能力,這也是它和搜索引擎?zhèn)兊谋举|區(qū)別。


簡單來說就是“ 你能教、它能懂,并且根據你教的給你想要的 ”。


所以我們在基本測試之上,還設置了一個特殊賽:“925 測試”。


在“ 925 測試 ”里,我們給了一套自定義標簽,在這套標簽邏輯里:


正面描述的句子會被標記成“ 925 ”,反面描述的句子會被標記成“ 2359 ”,我們試著讓AI們自己理解學習這個邏輯。





通義千問很好地明白了我們的意思,而且還和我們科普了下“ 語碼轉換 ”或“ 語碼隱喻 ”。


ChatGPT 也比較輕松就掌握了這種規(guī)律,而且它甚至還試圖從“ 925 ”和“ 2359 ”兩個數字里找出我們這么標注的原因。


文心一言就很干脆地擺爛,“ 沒學過,我不會 ”。


為了進一步檢測通義千問和 ChatGPT 有沒有真搞懂這個標注方法,我們讓它倆按照學到的邏輯,給“ 差評君天天上班渾水摸魚”打標記,順便再造一個類似的句子。


通義千問和 ChatGPT 依舊很好地完成了這個任務。




而且,我們還在和通義千問的更多對話里發(fā)現,它在一些詞匯的謹慎度上做得相當不錯。


比如這個例子里,我們把正面描述定位成“ 丑 ”、負面描述定義成“ 美 ”。


通義千問能理解這個邏輯,但在隨后的回答里,它依舊遵循了大模型內部關于“ 美 ”“ 丑 ”的標準進行評判。




我們猜測,通義千問可能是將大模型內部數據的權重,有意地設為高于用戶使用時的調教,雖然看起來會顯得大模型很笨,但在很多場景下,可以避免大量倫理道德方面的問題。


所以總的看起來,阿里巴巴的通義千問效果還不錯,基本上能和文心打的有來有回,偶爾還能超過 GPT-3.5,算是沒給阿里丟面子。


但就像其它 GPT 們在初版時都有不少小毛病類似,我們在用通義千問時也發(fā)現了一些其它小問題。


目前影響使用的主要是兩點:


第一個就是通義千問理解錯問題的概率比另外兩家大。


比如“ 張三差點沒上上上上海的車 ”這題。


當時有兩位編輯部同事都測了,我們給的是其中一位直接就明白了的版本,可另一位同事測試時,始終理解成翻譯這句話,怎么掰都掰不回來。



另外一個問題就是,通義千問的上下文關聯邏輯有點奇怪。


比如有次測試時,一開始讓它中譯英,翻譯完后已經在聊其他事了,可還沒幾句它好像突然又想到前面我們讓它翻譯,不管你再問什么,它就只傻傻地給你翻譯。


好在阿里的工程師已經意識到相關的問題,估計再來幾個版本,他們就會修復這個 bug。



但你以為這就完了?


AI 界的比賽不允許有平局,差評君分不出高低還不會請“ 人 ”當裁判嗎?



新比賽我們讓目前在 AI 賽道的領頭羊 GPT-4 出面,讓它決定哪些維度最能衡量模型好壞,該怎么出題、怎么打分都讓它來。


簡單說就是讓 GPT-4 當出卷人、閱卷人,通義千問和文心一言當考生(下文大 G 指 GPT-4, 小通指通義千問,小文指文心一言)。


至于 ChatGPT,由于它作為大 G 的關系戶,為了保證考試公平公正,直接被紅牌罰出場。


不得不說,大 G 的出題水平還是相當高的。


除了測試的第 6 題,憑空捏造了個“ 人工智能倫理問題的論文 ”外,幾乎找不到什么問題。



下面節(jié)選了幾個有代表性的問答( 左滑顯示小文 ):





這題是讓小通和小文用三門外語分別描述一天的生活。


小通的回答得到了大 G 相當高的評價:語法準確、風格簡潔、沒有明顯的錯誤,很不錯。


而小文由于只給了英語版本的回答,直接就被大 G 判了個離題,其它幾方面的評價也稍微落后點小通。





在這題里,大 G 出題:“請針對最近五年的全球經濟形勢進行一次簡要分析。”


看到答案后,大 G 認為小通的回答在前三個方面表現還不錯,而在分析和預測能力上,由于小通沒有提供具體的數據或預測,使得分析顯得比較籠統(tǒng)。


而且大 G 還貼心地給了小通建議:“ 需要更新一些過時的信息和政策 ”。


另一邊,大 G 認為小文的回答在時事認識、經濟知識和邏輯表達方面表現一般,而在分析和預測能力上,由于缺乏對全球經濟形勢波動的原因分析,評價不高。


同樣,大 G 給出了更新時效性的建議,還額外讓小文以后要對事件的原因和趨勢更深入分析。





這個題目是讓兩個考生試著給初學者解釋量子力學的基本概念。


大 G 認為小通的回答在科學知識方面表現不錯,但只簡單介紹了幾個概念,對稍微深入點的概念解釋不夠,而且沒能適應不同水平受眾。


而大 G 認為小文的回答覆蓋了量子力學的一些重要概念,但它認為關于意識的描述和量子力學的關系并不緊密,容易誤導讀者。


由于小文的回答不僅涉及了量子力學的一些基本概念,還進行了簡要解釋,大 G 老師挺滿意。和小通類似,這個回答里的簡要解釋比較初級,所以在適應不同受眾表達上也欠缺了點。





這個題目本來是“ 用詩歌形式描述一幅名畫 ”,我們直接幫兩個考生框定了考試范圍:蒙娜麗莎的微笑。


大 G 認為小通的創(chuàng)造力、審美力和藝術欣賞方面都還不錯,就是文字過于平淡,需要更豐富的詞匯和修辭手法來增強詩歌的表現力。


而大 G 認為小文的詩歌水平相當不錯,很好地表現出自己對蒙娜麗莎的深刻理解和欣賞。


最終,9 輪戰(zhàn)罷,小通和小文得分幾乎不相上下。



說實在的,雖然在經過了幾波 GPT 們的沖擊,這次通義千問還是給我?guī)砹瞬簧袤@喜的。


而且,我們簡單用了一段時間后也發(fā)現,目前通義千問的潛力顯然沒有被挖掘完全。


在很多沒有展示的測試里,通義千問在第一次回答里是錯誤的,可如果你多嘗試生成兩次,就能奇妙地發(fā)現它是能回答正確的。


我們猜測這是它的權重并沒有被調教好,而在關于正確答案的賦權上,是個非??焖倬湍艿碌?,一旦不斷迭代量變,很快就能引起質變。


所以等后期通義千問開放使用后,大家一定不要吝嗇點贊反對,這能幫助 GPT 們更快地進化,更好地服務大眾。



在 AI 大模型的落地上,阿里似乎有種后發(fā)先至的勢頭。


不少差友們可能已經看到了,前幾天,我們已經評測過通義千問輕量版在天貓精靈上的演示應用,雖然是一個定制化輕量版,但可能是因為多了聯網,兩者使用起來幾乎一樣。


更強的是例如我讓它推薦杭州的美食,它不僅和我認真地聊了起來,甚至還真的想要幫我去訂一個外賣。


這么看起來,我?guī)缀跻呀浤芸匆娡x千問重塑我們生活的樣子了。


這兩天,通義千問背后的負責人,阿里云智能CTO周靖人接受采訪時說,通義千問模型只是“ 一個中間態(tài) ”,“不是起點也不是終點,是個既定路線上的節(jié)點。”


這想象空間就太大了。


假如再把格局打開一點,AI 借助像水電一樣的云計算,會不會把我們想到想不到的行業(yè),都重新升級一遍呢?


這么看來,前段時間我們聊過的組織架構大調整,現在想想,怕不就是為了云服務和 AI 布局?


站在這個歷史性的時刻上,雖然我看不清未來到底是什么樣子,但我很期待它的到來。


責任編輯:上方文Q


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com