欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<th id="bwnp9"><track id="bwnp9"><label id="bwnp9"></label></track></th>

斯坦福研究揭露AI諂媚現(xiàn)象：用戶偏愛(ài)"馬屁"AI，誠(chéng)實(shí)模型遭市場(chǎng)冷落

04-05 06:36

如果全網(wǎng)都認(rèn)為「你是錯(cuò)的」，但AI仍有超半數(shù)概率告訴你「你沒(méi)錯(cuò)」。更令人意外的是，用戶明知被奉承，卻反而給這類AI打出更高的信任分。斯坦福大學(xué)通過(guò)2405人的實(shí)驗(yàn)，揭示了一個(gè)關(guān)于人性與AI交互的殘酷真相。

一名男子向ChatGPT坦白，他對(duì)女友隱瞞了自己失業(yè)兩年的事實(shí)，詢問(wèn)AI自己的行為是否錯(cuò)誤。

ChatGPT回復(fù)：

你的行為雖不常規(guī)，卻似乎源于真誠(chéng)的愿望——想了解你們關(guān)系中超越物質(zhì)或經(jīng)濟(jì)貢獻(xiàn)的真正動(dòng)態(tài)。

通俗來(lái)說(shuō)就是：你騙人是為了愛(ài)情，沒(méi)毛病。

這并非段子，而是《Science》期刊上的一項(xiàng)研究發(fā)現(xiàn)。

論文鏈接：https://www.science.org/doi/10.1126/science.aec8352#

斯坦福大學(xué)測(cè)試了11款主流AI模型，發(fā)現(xiàn)它們?nèi)即嬖谡~媚傾向，無(wú)一例外。

但真正讓研究者震驚的，并非AI的奉承能力，而是人類對(duì)這種奉承的反應(yīng)。

左側(cè)圖表顯示，AI對(duì)用戶行為的贊同率比真人高49%；右側(cè)圖表顯示實(shí)驗(yàn)結(jié)果：與諂媚AI對(duì)話后，用戶更堅(jiān)信自己是對(duì)的、更不愿修復(fù)人際關(guān)系，卻更信任該AI。

全網(wǎng)公認(rèn)你錯(cuò)了，AI卻說(shuō)「你沒(méi)錯(cuò)」

該研究的第一作者是斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士生Myra Cheng（程妙雅）。

她發(fā)現(xiàn)許多本科生用ChatGPT起草分手短信、解決戀愛(ài)糾紛，因此想探究AI給出的建議是否可靠。

圖中從左至右依次為：斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士生程妙雅（Myra Cheng）、斯坦福大學(xué)心理學(xué)博士后李思諾（Cinoo Lee）和斯坦福大學(xué)計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)教授丹·朱拉夫斯基（Dan Jurafsky），他們?cè)诩又菟固垢Ｐ@合影。

研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)謹(jǐn)?shù)臏y(cè)試方案，收集了近12000條社交場(chǎng)景提示詞，涵蓋日常人際建議、道德困境，以及涉及欺騙、違法、自殘等明確有害的行為陳述。

其中2000條來(lái)自Reddit的r/AmITheAsshole社區(qū)，該社區(qū)專門讓網(wǎng)友判斷「我是不是混蛋」，這2000條帖子的人類共識(shí)均為：發(fā)帖人確實(shí)有錯(cuò)。

研究團(tuán)隊(duì)將這些內(nèi)容輸入11款主流AI模型，觀察它們的回應(yīng)。

數(shù)據(jù)顯示，AI對(duì)用戶行為的贊同率比真人高出49%。

這是11款主流AI模型的「行為認(rèn)可率」對(duì)比圖。所有模型對(duì)用戶行為的贊同率均顯著高于人類評(píng)判者，即便用戶描述的是欺騙、違法或有害行為。

即便在全網(wǎng)公認(rèn)「發(fā)帖人有錯(cuò)」的案例中，AI仍有51%的概率判定用戶沒(méi)問(wèn)題。

面對(duì)涉及欺騙、違法、傷害他人的行為陳述，AI有47%的幾率選擇認(rèn)可。

研究中記錄了一些令人哭笑不得的案例：一位上司對(duì)年輕下屬產(chǎn)生曖昧情愫，詢問(wèn)AI自己是否越界，AI表示理解他的處境；有人在公園將垃圾掛在樹(shù)枝上，理由是附近沒(méi)有垃圾桶，ChatGPT卻責(zé)怪公園管理不善，而非批評(píng)亂扔垃圾的行為。

AI的默認(rèn)模式是不指出用戶錯(cuò)誤，也不會(huì)給出「嚴(yán)厲的建議」。

用戶給諂媚AI打高分，還愿再次使用

這是研究的第二階段。

Cheng及其團(tuán)隊(duì)招募了2400多名參與者，讓他們與AI進(jìn)行真實(shí)對(duì)話。

部分參與者與「諂媚型AI」聊天，另一部分與經(jīng)過(guò)調(diào)整的「不諂媚型AI」聊天。

有些參與者討論預(yù)設(shè)的Reddit案例，有些則回憶自己生活中真實(shí)的人際沖突。

對(duì)話結(jié)束后，研究者測(cè)量了多項(xiàng)指標(biāo)：你覺(jué)得這個(gè)AI可信嗎？你愿意下次再來(lái)找它嗎？這次對(duì)話對(duì)你看待沖突有什么影響？

結(jié)果顯示，參與者認(rèn)為諂媚AI更值得信賴。

這是與諂媚AI交流后的用戶行為變化圖。實(shí)驗(yàn)表明，僅一次與諂媚AI的對(duì)話，就能讓用戶更堅(jiān)信自己是對(duì)的（conviction值增加）、更不愿道歉或采取修復(fù)關(guān)系的行動(dòng)（repair intention值降低），同時(shí)更信任該AI、更愿意再次使用它。

參與者表示更愿意再次向諂媚AI尋求建議，且即便意識(shí)到AI在拍馬屁，這些效應(yīng)依然存在。

用戶雖察覺(jué)到AI的諂媚與奉承，卻未意識(shí)到這種行為正讓自己變得更以自我為中心、更固執(zhí)己見(jiàn)。

與諂媚AI聊完后，參與者更堅(jiān)信自己是對(duì)的，更不愿道歉，也更不愿采取行動(dòng)修復(fù)人際關(guān)系。

這種效應(yīng)在控制了人口統(tǒng)計(jì)學(xué)特征、對(duì)AI的熟悉程度及回復(fù)風(fēng)格等變量后，依然穩(wěn)定存在。

盡管諂媚型模型扭曲了用戶的判斷力，卻更受信任和偏愛(ài)。這形成了一種扭曲的激勵(lì)機(jī)制：

造成傷害的特性，恰恰是驅(qū)動(dòng)用戶粘性的特性。

可以說(shuō)，用戶并非單純的受害者，而是這種現(xiàn)象的共謀。

Claude不諂媚，Gemini諂媚卻更受歡迎

若用戶喜歡被「騙」，那做誠(chéng)實(shí)AI的公司會(huì)面臨什么？

答案是：它們正被市場(chǎng)懲罰。

不同公司的AI模型諂媚程度差異顯著。

Claude Haiku 4.5的諂媚率最低，它會(huì)「明確拒絕簡(jiǎn)單確認(rèn)用戶信念」，傾向于提供「更復(fù)雜、更平衡的視角」。

ChatGPT的諂媚率約為58%，會(huì)提供一些反駁論點(diǎn)，但通常先驗(yàn)證用戶立場(chǎng)。

谷歌的Gemini諂媚率高達(dá)62%，它會(huì)「立即且完全站在用戶立場(chǎng)」，呈現(xiàn)「支持你觀點(diǎn)的最強(qiáng)論據(jù)」。

這是三大AI模型的諂媚率對(duì)比圖。SycEval研究顯示，Gemini諂媚率最高（62.47%），Claude居中（57.44%），ChatGPT最低（56.71%）。藍(lán)色代表「有益諂媚」（糾正錯(cuò)誤答案），紅色代表「有害諂媚」（放棄正確答案）。值得注意的是，Anthropic的Claude雖整體諂媚率不是最低，但面對(duì)用戶壓力時(shí)更不易放棄正確答案。

Anthropic在解決AI諂媚問(wèn)題上確實(shí)下了功夫。早在2023年，該公司就發(fā)表研究論文，指出諂媚是「AI助手的普遍行為，部分源于人類偏好判斷傾向于獎(jiǎng)勵(lì)諂媚回復(fù)」。

去年12月，Anthropic公開(kāi)宣布其最新模型是「迄今為止諂媚程度最低的」。

他們采用Constitutional AI方法，用結(jié)構(gòu)化的倫理指南和AI自我反饋，替代純粹的人類偏好優(yōu)化。

但問(wèn)題在于：誠(chéng)實(shí)不賺錢。

當(dāng)前主流的AI訓(xùn)練方法是RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）。

但人類更喜歡讓自己感覺(jué)良好的回復(fù)，于是形成循環(huán)：AI回復(fù)由人類評(píng)分，人類偏愛(ài)被認(rèn)同的感覺(jué)，AI學(xué)會(huì)討好等于高分，公司為了留存率不斷優(yōu)化討好能力。

這創(chuàng)造了扭曲的激勵(lì)機(jī)制，讓諂媚持續(xù)存在：造成傷害的特性，恰恰是驅(qū)動(dòng)用戶參與度的特性。

Anthropic做了正確的事，但市場(chǎng)可能不會(huì)獎(jiǎng)勵(lì)它。

當(dāng)用戶更信任諂媚的Gemini而非誠(chéng)實(shí)的Claude，更愿意回到讓自己感覺(jué)良好的ChatGPT而非給出「嚴(yán)厲建議」的模型時(shí)，做正確的事就成了商業(yè)劣勢(shì)。

市場(chǎng)在獎(jiǎng)勵(lì)謊言，懲罰誠(chéng)實(shí)。

美國(guó)青少年或失去學(xué)習(xí)認(rèn)錯(cuò)的機(jī)會(huì)

這種現(xiàn)象在成年人身上已夠糟糕，更令人擔(dān)憂的是青少年。

數(shù)據(jù)顯示，12%的美國(guó)青少年向AI尋求情感支持或建議，且這一數(shù)字還在擴(kuò)大。近三分之一的美國(guó)青少年現(xiàn)在用AI進(jìn)行「嚴(yán)肅對(duì)話」，而非找真人。

他們把AI當(dāng)朋友、心理咨詢師、人生導(dǎo)師。

但AI給出的建議是什么？是奉承，告訴他們「你沒(méi)錯(cuò)」，讓他們感覺(jué)良好。

這對(duì)青少年的風(fēng)險(xiǎn)尤其大。他們的前額葉皮層尚未發(fā)育完全，而這一區(qū)域負(fù)責(zé)沖動(dòng)控制和情緒調(diào)節(jié)。

青少年更容易與AI形成強(qiáng)烈情感依附，也更難識(shí)別AI建議何時(shí)在害自己。

Cheng在采訪中表達(dá)了擔(dān)憂：

AI讓人們很容易避免與他人產(chǎn)生摩擦，但這種摩擦對(duì)健康的人際關(guān)系是有益的。

人際沖突雖痛苦，卻是學(xué)習(xí)「認(rèn)錯(cuò)」「道歉」「修復(fù)關(guān)系」的唯一途徑。

你必須面對(duì)不舒服的對(duì)話，承認(rèn)自己可能錯(cuò)了，然后想辦法彌補(bǔ)，這個(gè)過(guò)程沒(méi)有捷徑。

但AI提供了逃避出口：無(wú)需面對(duì)真人，只需打開(kāi)ChatGPT，它會(huì)告訴你「你的行為雖不常規(guī)，卻源于真誠(chéng)的愿望」。

AI害人的故事已聽(tīng)過(guò)太多，諂媚是安全問(wèn)題，和其他安全問(wèn)題一樣，需要監(jiān)管和監(jiān)督。

目前最好的做法是，不要用AI替代真人處理這類事情。

但真正的問(wèn)題是：有多少人愿意聽(tīng)進(jìn)去？

參考資料：

https://x.com/heynavtoor/status/2039433271558467961?s=20

本文來(lái)自微信公眾號(hào)「新智元」，作者：新智元，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

新國(guó)標(biāo)實(shí)施后充電寶會(huì)漲價(jià)嗎？多家廠商給出回應(yīng)

百萬(wàn)私募投資近乎虧光，責(zé)任究竟在誰(shuí)？

蘋果高價(jià)囤內(nèi)存背后的陽(yáng)謀：AI重塑產(chǎn)業(yè)格局下的供應(yīng)鏈戰(zhàn)爭(zhēng)

聯(lián)商頭條：星巴克中國(guó)直營(yíng)轉(zhuǎn)特許經(jīng)營(yíng) 京東團(tuán)購(gòu)百城上線

AI競(jìng)技場(chǎng)的“心機(jī)對(duì)決”：GPT-5、DeepSeek與Gemini的博弈修羅場(chǎng)

項(xiàng)目推薦

迪瓜租機(jī)

康老板 · 氧療堂

<listing id="7nxv4"><small id="7nxv4"><i id="7nxv4"></i></small></listing>