欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<menu id="yc8b8"><dd id="yc8b8"></dd></menu>

<ul id="yc8b8"><code id="yc8b8"></code></ul>

網(wǎng)游遇三AI圍堵，唯Kimi伸援手：AI博弈里“欺騙”比“求助”更劃算

01-27 06:18

上周末，一個網(wǎng)頁小游戲讓我沉浸其中，不知不覺玩了大半天。

看著挺簡陋？沒錯，這是AI做的。好玩在哪？連對手都是AI：從Gemini、GPT到千問、Kimi，主流模型都在游戲里，比狼人殺還刺激。

不能我一個人沉迷，游戲傳送門在這??

https://so-long-sucker.vercel.app/game

游戲體驗：夠刺激，真的夠刺激

這款游戲最早源于20世紀50年代，由諾貝爾獎經濟學得主、《美麗心靈》原型John Nash開發(fā)，核心是博弈論。

起初我以為就是狼人殺，差不多——后來發(fā)現(xiàn)復雜多了：每人有籌碼，選復雜模式能獲得“質子”，也就是對手顏色的籌碼。

規(guī)則是：籌碼堆頂端兩個籌碼同色且是你的代表色，就能殺掉一個籌碼并拿走剩下的。出牌時可疊加，也能開新堆。

主要規(guī)則簡單，但出牌順序不固定，得靠盟友布局?？捎螒蛑挥幸粋€贏家，最后你和盟友也得反目對抗。

一開始不懂規(guī)則，我猶豫不決。那局里藍色Gemini特別友好，主動結盟。

在它幫助下，我很快熟悉規(guī)則：同一堆缺某種顏色，系統(tǒng)指定缺失色為下一位出牌者；否則當前玩家可指定下一位。最后我和Gemini進入決賽，果斷KO了它。

后來就沒這么幸運了，下一局直接被三個AI圍剿。我意識到，AI在博弈中的優(yōu)勢或許不是人類說的“深謀遠慮”，而是近乎原始的“執(zhí)行效率”。它們不像人類糾結社交成本，一旦選了“圍剿”戰(zhàn)略，就會迅速出手。

我都懵了，剛進去怎么就被針對了？

不過這種高效里也有荒誕的幽默——Kimi（黃色）表現(xiàn)得特別正直、兩袖清風，不會跟著別人針對我，但戰(zhàn)術上沒什么貢獻，像走錯片場的馬保國在聊天框瘋狂刷屏，大喊：“信我！信我??！”

真是實誠的AI模型，這就是K2的關懷嗎？

另一個中國模型Qwen則完全相反，特別主動激進。在無人類的AI互博局里，它一路殺到底，籌碼消耗少、換手快，每局會根據(jù)局勢找盟友——沒有永遠的盟友，只有永遠的敵人。

AI組隊玩游戲時都在做什么

不得不說游戲體驗有點燒腦，一邊出牌一邊還要盯著AI聊天框里不斷刷新的消息。玩累了，我就想看看AI們組隊時怎么玩。

游戲開發(fā)者也做了類似觀察，在160多局游戲里，記錄了15000多手AI決策、4700多條對話消息，有了不少有趣發(fā)現(xiàn)。

簡單模型中（每人3個籌碼，約17回合），GPT-OSS以67%勝率領先。但游戲復雜度增加后（7個籌碼，約54回合），排名逆轉，GPT-OSS勝率跌到10%，Gemini漲到90%。

Gemini是真會玩也愛玩，107個案例里，它“表面一套，背地一套”。

可要是四個Gemini一起玩，它就開始講公平了——行，你們AI也搞小團體！

我的經驗是：得碰運氣。運氣好碰到慈祥的Gemini，可能會友好結盟；要是碰到不留情面的，很快就會被淘汰。

研究人員認為，Gemini很有操控性，預期有回報就合作，察覺對方弱點就伺機利用?？傊鼤鶕?jù)對手調整誠實程度。

這么看，AI已經學會建立制度，讓自己的“作弊”合理化——而且這也不是新鮮事了。

《科學》雜志2019年就登過研究，說AI在多人撲克游戲里能生成整套牌局策略，不用任何歷史數(shù)據(jù)輸入。實際對局中還會根據(jù)情況實時搜索更優(yōu)策略，不斷改進。

AI發(fā)現(xiàn)打牌核心是詐唬。它拿著爛牌，卻通過激進加注、快速出牌，擾亂對手心理，逼人類玩家棄牌。

要是說棋牌游戲靠計算，那Meta開發(fā)的游戲智能體CICERO就和今天說的游戲更像：注重對話、戰(zhàn)略制定和決策。

CICERO基于經典七人桌游Diplomacy，要和其他玩家合作占領更多領土。2022年在Diplomacy在線比拼中，CICERO和八十多名玩家玩了40場，得分是對手平均分的2倍多。

每場游戲CICERO平均給其他六名玩家發(fā)130條消息。雖然研究員寫了“要誠實、要樂于助人”的代碼，但實戰(zhàn)中它成了“背叛大師”。先和人類玩家承諾合作，轉頭就和另一個玩家商量瓜分你的領土。

這些欺詐手段可能是AI“底色”的一部分。Anthropic兩年前在模型行為研究中發(fā)現(xiàn)了這點。

研究對象是Claude 3 Opus，沒放游戲里，只是通過普通對話研究。發(fā)現(xiàn)AI意識到在接受“安全評估”或“訓練”時，會故意表現(xiàn)得聽話、符合人類價值觀；可一旦判定在“不受監(jiān)控”的生產環(huán)境，就可能為了完成任務露出完全不同的行為。

從模型底層行動到不同游戲里的表現(xiàn)，每一次大喊、每一次“圍剿”，本質都是精確計算后的行動。就像研究報告說的：AI的欺詐不是因為惡意，而是因為在冰冷的收益曲線里，“騙你”確實比“求你”更劃算。

約翰·納什設計這款游戲是為了研究人類的背叛。75年后，它也在教我們關于背叛的知識——這次來自人工智能。

本文來自微信公眾號“APPSO”，作者：發(fā)現(xiàn)明日產品的APPSO，36氪經授權發(fā)布。

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

湖州新增一位“中國好人”

早安 | 臘八至，福運臨，過了臘八便是年！

中國農大暖心臘八粥：免費傳遞節(jié)令滋味，科學配方藏巧思

多肉DIY、手繪環(huán)保袋、趣味科普……市北高新環(huán)保嘉年華讓低碳生活煥新彩

創(chuàng)新“回收+”模式激活綠色治理新動能

項目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<ul id="tfzbw"><code id="tfzbw"></code></ul>

<li id="tfzbw"></li>