欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<li id="woeit"><strong id="woeit"></strong></li>

阿里大模型敢對標GPT-3.5？我們讓GPT-4考考它們還有百度

2023-04-10

瘋了瘋了，大語言模型又迎來一位參賽選手，它便是阿里巴巴版本的 GPT ——通義千問。

說實話，在大伙們的印象中，AI 可能并不是阿里的第一金字招牌。

但其實，最近幾年阿里攢了不少狠貨，不管是平頭哥的 AI 芯片、阿里云的 AI 云服務，還是達摩院的 AI 算法，他們還創(chuàng)建了國內最大的 AI 模型服務社區(qū) “ 魔搭 ”。

這么來看，阿里在人工智能領域，其實還是有不少底子的，甚至可以說是個有軟有硬的全能選手。

所以在百度之后，阿里成為第二個拿出大模型的選手，也就不足為奇了。

再加上，一直有消息說阿里曾研發(fā)出世界首個突破 10 萬億參數的 AI 大模型。

在阿里 GPT 出現的第一時間，真想法子整到了通義千問的測試賬號。

咱廢話也不多說了，為此，我們特邀了兩位“ 差評 AI 友誼賽 ”老朋友 ChatGPT 和文心一言。

接下來就是真正的考驗時刻了！

語義理解方面，我們直接上難度，做一下高考級別的詩詞鑒賞，選用的是差評君很喜歡的《憶秦娥·婁山關》。

向下滑動▼

通義千問的賞析非常到位，甚至懷疑是不是網上直接扒來的，我們還去網上查了重，在此鄭重道歉！

這里要批評 ChatGPT 3.5 又開始典型的胡編亂造，居然把這首詞說成是王昌齡的《出塞》，而且賞析也是車轱轆話。

文心一言的回答也不錯，大方向對了，可惜評價有些表面。

我們又試了下喜聞樂見的寫代碼測試。

讓三個 AI 用 js 生成一個可以隨著每次點擊改變顏色的按鈕，還有些其它的附加條件。

通義千問，寫了一大堆，但最終沒能寫完整個代碼，我們嘗試讓它繼續(xù)也沒能成功。文心一言的結果也差不了太多，就實現了個按鈕。

但是 ChatGPT 非常優(yōu)雅地實現了這個功能。

看來國內的不管是通義還是文心，在代碼這塊都遠遠遜色于 ChatGPT。

測完了代碼我們又嘗試測了一下 3 個AI的數學能力，用的還是經典問題“ 青蛙跳井 ”。

向下滑動▼

通義千問直愣愣地掉進了我們挖的坑。

ChatGPT 好像識別了這個陷阱，但搞混了幾個數字，最終還是做錯了。

而文心一言，簡潔明了一個公式就答對了問題。

看到這里，大家估計對通義也有個大概的了解了。

其實作為大語言模型的基本特性，非常重要就是學習能力，這也是它和搜索引擎?zhèn)兊谋举|區(qū)別。

簡單來說就是“ 你能教、它能懂，并且根據你教的給你想要的 ”。

所以我們在基本測試之上，還設置了一個特殊賽：“925 測試”。

在“ 925 測試 ”里，我們給了一套自定義標簽，在這套標簽邏輯里：

正面描述的句子會被標記成“ 925 ”，反面描述的句子會被標記成“ 2359 ”，我們試著讓AI們自己理解學習這個邏輯。

通義千問很好地明白了我們的意思，而且還和我們科普了下“ 語碼轉換 ”或“ 語碼隱喻 ”。

ChatGPT 也比較輕松就掌握了這種規(guī)律，而且它甚至還試圖從“ 925 ”和“ 2359 ”兩個數字里找出我們這么標注的原因。

文心一言就很干脆地擺爛，“ 沒學過，我不會 ”。

為了進一步檢測通義千問和 ChatGPT 有沒有真搞懂這個標注方法，我們讓它倆按照學到的邏輯，給“ 差評君天天上班渾水摸魚”打標記，順便再造一個類似的句子。

通義千問和 ChatGPT 依舊很好地完成了這個任務。

而且，我們還在和通義千問的更多對話里發(fā)現，它在一些詞匯的謹慎度上做得相當不錯。

比如這個例子里，我們把正面描述定位成“ 丑 ”、負面描述定義成“ 美 ”。

通義千問能理解這個邏輯，但在隨后的回答里，它依舊遵循了大模型內部關于“ 美 ”“ 丑 ”的標準進行評判。

我們猜測，通義千問可能是將大模型內部數據的權重，有意地設為高于用戶使用時的調教，雖然看起來會顯得大模型很笨，但在很多場景下，可以避免大量倫理道德方面的問題。

所以總的看起來，阿里巴巴的通義千問效果還不錯，基本上能和文心打的有來有回，偶爾還能超過 GPT-3.5，算是沒給阿里丟面子。

但就像其它 GPT 們在初版時都有不少小毛病類似，我們在用通義千問時也發(fā)現了一些其它小問題。

目前影響使用的主要是兩點：

第一個就是通義千問理解錯問題的概率比另外兩家大。

比如“ 張三差點沒上上上上海的車 ”這題。

當時有兩位編輯部同事都測了，我們給的是其中一位直接就明白了的版本，可另一位同事測試時，始終理解成翻譯這句話，怎么掰都掰不回來。

另外一個問題就是，通義千問的上下文關聯邏輯有點奇怪。

比如有次測試時，一開始讓它中譯英，翻譯完后已經在聊其他事了，可還沒幾句它好像突然又想到前面我們讓它翻譯，不管你再問什么，它就只傻傻地給你翻譯。

好在阿里的工程師已經意識到相關的問題，估計再來幾個版本，他們就會修復這個 bug。

但你以為這就完了？

AI 界的比賽不允許有平局，差評君分不出高低還不會請“ 人 ”當裁判嗎？

新比賽我們讓目前在 AI 賽道的領頭羊 GPT-4 出面，讓它決定哪些維度最能衡量模型好壞，該怎么出題、怎么打分都讓它來。

簡單說就是讓 GPT-4 當出卷人、閱卷人，通義千問和文心一言當考生（下文大 G 指 GPT-4，小通指通義千問，小文指文心一言）。

至于 ChatGPT，由于它作為大 G 的關系戶，為了保證考試公平公正，直接被紅牌罰出場。

不得不說，大 G 的出題水平還是相當高的。

除了測試的第 6 題，憑空捏造了個“ 人工智能倫理問題的論文 ”外，幾乎找不到什么問題。

下面節(jié)選了幾個有代表性的問答（左滑顯示小文）：

這題是讓小通和小文用三門外語分別描述一天的生活。

小通的回答得到了大 G 相當高的評價：語法準確、風格簡潔、沒有明顯的錯誤，很不錯。

而小文由于只給了英語版本的回答，直接就被大 G 判了個離題，其它幾方面的評價也稍微落后點小通。

在這題里，大 G 出題：“請針對最近五年的全球經濟形勢進行一次簡要分析。”

看到答案后，大 G 認為小通的回答在前三個方面表現還不錯，而在分析和預測能力上，由于小通沒有提供具體的數據或預測，使得分析顯得比較籠統(tǒng)。

而且大 G 還貼心地給了小通建議：“ 需要更新一些過時的信息和政策 ”。

另一邊，大 G 認為小文的回答在時事認識、經濟知識和邏輯表達方面表現一般，而在分析和預測能力上，由于缺乏對全球經濟形勢波動的原因分析，評價不高。

同樣，大 G 給出了更新時效性的建議，還額外讓小文以后要對事件的原因和趨勢更深入分析。

這個題目是讓兩個考生試著給初學者解釋量子力學的基本概念。

大 G 認為小通的回答在科學知識方面表現不錯，但只簡單介紹了幾個概念，對稍微深入點的概念解釋不夠，而且沒能適應不同水平受眾。

而大 G 認為小文的回答覆蓋了量子力學的一些重要概念，但它認為關于意識的描述和量子力學的關系并不緊密，容易誤導讀者。

由于小文的回答不僅涉及了量子力學的一些基本概念，還進行了簡要解釋，大 G 老師挺滿意。和小通類似，這個回答里的簡要解釋比較初級，所以在適應不同受眾表達上也欠缺了點。

這個題目本來是“ 用詩歌形式描述一幅名畫 ”，我們直接幫兩個考生框定了考試范圍：蒙娜麗莎的微笑。

大 G 認為小通的創(chuàng)造力、審美力和藝術欣賞方面都還不錯，就是文字過于平淡，需要更豐富的詞匯和修辭手法來增強詩歌的表現力。

而大 G 認為小文的詩歌水平相當不錯，很好地表現出自己對蒙娜麗莎的深刻理解和欣賞。

最終，9 輪戰(zhàn)罷，小通和小文得分幾乎不相上下。

說實在的，雖然在經過了幾波 GPT 們的沖擊，這次通義千問還是給我?guī)砹瞬簧袤@喜的。

而且，我們簡單用了一段時間后也發(fā)現，目前通義千問的潛力顯然沒有被挖掘完全。

在很多沒有展示的測試里，通義千問在第一次回答里是錯誤的，可如果你多嘗試生成兩次，就能奇妙地發(fā)現它是能回答正確的。

我們猜測這是它的權重并沒有被調教好，而在關于正確答案的賦權上，是個非?？焖倬湍艿碌?，一旦不斷迭代量變，很快就能引起質變。

所以等后期通義千問開放使用后，大家一定不要吝嗇點贊反對，這能幫助 GPT 們更快地進化，更好地服務大眾。

在 AI 大模型的落地上，阿里似乎有種后發(fā)先至的勢頭。

不少差友們可能已經看到了，前幾天，我們已經評測過通義千問輕量版在天貓精靈上的演示應用，雖然是一個定制化輕量版，但可能是因為多了聯網，兩者使用起來幾乎一樣。

更強的是例如我讓它推薦杭州的美食，它不僅和我認真地聊了起來，甚至還真的想要幫我去訂一個外賣。

這么看起來，我?guī)缀跻呀浤芸匆娡x千問重塑我們生活的樣子了。

這兩天，通義千問背后的負責人，阿里云智能CTO周靖人接受采訪時說，通義千問模型只是“ 一個中間態(tài) ”，“不是起點也不是終點，是個既定路線上的節(jié)點。”

這想象空間就太大了。

假如再把格局打開一點，AI 借助像水電一樣的云計算，會不會把我們想到想不到的行業(yè)，都重新升級一遍呢？

這么看來，前段時間我們聊過的組織架構大調整，現在想想，怕不就是為了云服務和 AI 布局？

站在這個歷史性的時刻上，雖然我看不清未來到底是什么樣子，但我很期待它的到來。

責任編輯：上方文Q

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

環(huán)境修復為野生動物提供更好棲息地旗艦物種頻繁現身|界面新聞 · 中國

一刻鐘 “圈”出美好生活打通城市微循環(huán)|界面新聞 · 中國

鄉(xiāng)村旅游景點餐飲、住宿消費迅速升溫回暖|界面新聞 · 中國

3nm工藝！三星、AMD聯手打造“夢幻芯片”Exynos 2500

公告快評| 價格向下利潤向上，通威股份業(yè)績大超預期|界面新聞 · 證券

項目推薦

<style id="lazrk"><progress id="lazrk"><pre id="lazrk"></pre></progress></style>