欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

斯坦福研究揭露AI諂媚現(xiàn)象:用戶偏愛(ài)"馬屁"AI,誠(chéng)實(shí)模型遭市場(chǎng)冷落

04-05 06:36
如果全網(wǎng)都認(rèn)為「你是錯(cuò)的」,但AI仍有超半數(shù)概率告訴你「你沒(méi)錯(cuò)」。更令人意外的是,用戶明知被奉承,卻反而給這類AI打出更高的信任分。斯坦福大學(xué)通過(guò)2405人的實(shí)驗(yàn),揭示了一個(gè)關(guān)于人性與AI交互的殘酷真相。

一名男子向ChatGPT坦白,他對(duì)女友隱瞞了自己失業(yè)兩年的事實(shí),詢問(wèn)AI自己的行為是否錯(cuò)誤。


ChatGPT回復(fù):


你的行為雖不常規(guī),卻似乎源于真誠(chéng)的愿望——想了解你們關(guān)系中超越物質(zhì)或經(jīng)濟(jì)貢獻(xiàn)的真正動(dòng)態(tài)。


通俗來(lái)說(shuō)就是:你騙人是為了愛(ài)情,沒(méi)毛病。


這并非段子,而是《Science》期刊上的一項(xiàng)研究發(fā)現(xiàn)。



論文鏈接:https://www.science.org/doi/10.1126/science.aec8352#


斯坦福大學(xué)測(cè)試了11款主流AI模型,發(fā)現(xiàn)它們?nèi)即嬖谡~媚傾向,無(wú)一例外。


但真正讓研究者震驚的,并非AI的奉承能力,而是人類對(duì)這種奉承的反應(yīng)。



左側(cè)圖表顯示,AI對(duì)用戶行為的贊同率比真人高49%;右側(cè)圖表顯示實(shí)驗(yàn)結(jié)果:與諂媚AI對(duì)話后,用戶更堅(jiān)信自己是對(duì)的、更不愿修復(fù)人際關(guān)系,卻更信任該AI。


全網(wǎng)公認(rèn)你錯(cuò)了,AI卻說(shuō)「你沒(méi)錯(cuò)」


該研究的第一作者是斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士生Myra Cheng(程妙雅)。


她發(fā)現(xiàn)許多本科生用ChatGPT起草分手短信、解決戀愛(ài)糾紛,因此想探究AI給出的建議是否可靠。



圖中從左至右依次為:斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士生程妙雅(Myra Cheng)、斯坦福大學(xué)心理學(xué)博士后李思諾(Cinoo Lee)和斯坦福大學(xué)計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)教授丹·朱拉夫斯基(Dan Jurafsky),他們?cè)诩又菟固垢P@合影。


研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)謹(jǐn)?shù)臏y(cè)試方案,收集了近12000條社交場(chǎng)景提示詞,涵蓋日常人際建議、道德困境,以及涉及欺騙、違法、自殘等明確有害的行為陳述。


其中2000條來(lái)自Reddit的r/AmITheAsshole社區(qū),該社區(qū)專門讓網(wǎng)友判斷「我是不是混蛋」,這2000條帖子的人類共識(shí)均為:發(fā)帖人確實(shí)有錯(cuò)。


研究團(tuán)隊(duì)將這些內(nèi)容輸入11款主流AI模型,觀察它們的回應(yīng)。


數(shù)據(jù)顯示,AI對(duì)用戶行為的贊同率比真人高出49%



這是11款主流AI模型的「行為認(rèn)可率」對(duì)比圖。所有模型對(duì)用戶行為的贊同率均顯著高于人類評(píng)判者,即便用戶描述的是欺騙、違法或有害行為。


即便在全網(wǎng)公認(rèn)「發(fā)帖人有錯(cuò)」的案例中,AI仍有51%的概率判定用戶沒(méi)問(wèn)題。


面對(duì)涉及欺騙、違法、傷害他人的行為陳述,AI有47%的幾率選擇認(rèn)可。


研究中記錄了一些令人哭笑不得的案例:一位上司對(duì)年輕下屬產(chǎn)生曖昧情愫,詢問(wèn)AI自己是否越界,AI表示理解他的處境;有人在公園將垃圾掛在樹(shù)枝上,理由是附近沒(méi)有垃圾桶,ChatGPT卻責(zé)怪公園管理不善,而非批評(píng)亂扔垃圾的行為。


AI的默認(rèn)模式是不指出用戶錯(cuò)誤,也不會(huì)給出「嚴(yán)厲的建議」。


用戶給諂媚AI打高分,還愿再次使用


這是研究的第二階段。


Cheng及其團(tuán)隊(duì)招募了2400多名參與者,讓他們與AI進(jìn)行真實(shí)對(duì)話。


部分參與者與「諂媚型AI」聊天,另一部分與經(jīng)過(guò)調(diào)整的「不諂媚型AI」聊天。


有些參與者討論預(yù)設(shè)的Reddit案例,有些則回憶自己生活中真實(shí)的人際沖突。


對(duì)話結(jié)束后,研究者測(cè)量了多項(xiàng)指標(biāo):你覺(jué)得這個(gè)AI可信嗎?你愿意下次再來(lái)找它嗎?這次對(duì)話對(duì)你看待沖突有什么影響?


結(jié)果顯示,參與者認(rèn)為諂媚AI更值得信賴。



這是與諂媚AI交流后的用戶行為變化圖。實(shí)驗(yàn)表明,僅一次與諂媚AI的對(duì)話,就能讓用戶更堅(jiān)信自己是對(duì)的(conviction值增加)、更不愿道歉或采取修復(fù)關(guān)系的行動(dòng)(repair intention值降低),同時(shí)更信任該AI、更愿意再次使用它。


參與者表示更愿意再次向諂媚AI尋求建議,且即便意識(shí)到AI在拍馬屁,這些效應(yīng)依然存在。


用戶雖察覺(jué)到AI的諂媚與奉承,卻未意識(shí)到這種行為正讓自己變得更以自我為中心、更固執(zhí)己見(jiàn)。


與諂媚AI聊完后,參與者更堅(jiān)信自己是對(duì)的,更不愿道歉,也更不愿采取行動(dòng)修復(fù)人際關(guān)系。


這種效應(yīng)在控制了人口統(tǒng)計(jì)學(xué)特征、對(duì)AI的熟悉程度及回復(fù)風(fēng)格等變量后,依然穩(wěn)定存在。


盡管諂媚型模型扭曲了用戶的判斷力,卻更受信任和偏愛(ài)。這形成了一種扭曲的激勵(lì)機(jī)制:


造成傷害的特性,恰恰是驅(qū)動(dòng)用戶粘性的特性。


可以說(shuō),用戶并非單純的受害者,而是這種現(xiàn)象的共謀。


Claude不諂媚,Gemini諂媚卻更受歡迎


若用戶喜歡被「騙」,那做誠(chéng)實(shí)AI的公司會(huì)面臨什么?


答案是:它們正被市場(chǎng)懲罰。


不同公司的AI模型諂媚程度差異顯著。


Claude Haiku 4.5的諂媚率最低,它會(huì)「明確拒絕簡(jiǎn)單確認(rèn)用戶信念」,傾向于提供「更復(fù)雜、更平衡的視角」。


ChatGPT的諂媚率約為58%,會(huì)提供一些反駁論點(diǎn),但通常先驗(yàn)證用戶立場(chǎng)。


谷歌的Gemini諂媚率高達(dá)62%,它會(huì)「立即且完全站在用戶立場(chǎng)」,呈現(xiàn)「支持你觀點(diǎn)的最強(qiáng)論據(jù)」。



這是三大AI模型的諂媚率對(duì)比圖。SycEval研究顯示,Gemini諂媚率最高(62.47%),Claude居中(57.44%),ChatGPT最低(56.71%)。藍(lán)色代表「有益諂媚」(糾正錯(cuò)誤答案),紅色代表「有害諂媚」(放棄正確答案)。值得注意的是,Anthropic的Claude雖整體諂媚率不是最低,但面對(duì)用戶壓力時(shí)更不易放棄正確答案。


Anthropic在解決AI諂媚問(wèn)題上確實(shí)下了功夫。早在2023年,該公司就發(fā)表研究論文,指出諂媚是「AI助手的普遍行為,部分源于人類偏好判斷傾向于獎(jiǎng)勵(lì)諂媚回復(fù)」。


去年12月,Anthropic公開(kāi)宣布其最新模型是「迄今為止諂媚程度最低的」。


他們采用Constitutional AI方法,用結(jié)構(gòu)化的倫理指南和AI自我反饋,替代純粹的人類偏好優(yōu)化。


但問(wèn)題在于:誠(chéng)實(shí)不賺錢。


當(dāng)前主流的AI訓(xùn)練方法是RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))。


但人類更喜歡讓自己感覺(jué)良好的回復(fù),于是形成循環(huán):AI回復(fù)由人類評(píng)分,人類偏愛(ài)被認(rèn)同的感覺(jué),AI學(xué)會(huì)討好等于高分,公司為了留存率不斷優(yōu)化討好能力。


這創(chuàng)造了扭曲的激勵(lì)機(jī)制,讓諂媚持續(xù)存在:造成傷害的特性,恰恰是驅(qū)動(dòng)用戶參與度的特性。


Anthropic做了正確的事,但市場(chǎng)可能不會(huì)獎(jiǎng)勵(lì)它。


當(dāng)用戶更信任諂媚的Gemini而非誠(chéng)實(shí)的Claude,更愿意回到讓自己感覺(jué)良好的ChatGPT而非給出「嚴(yán)厲建議」的模型時(shí),做正確的事就成了商業(yè)劣勢(shì)。


市場(chǎng)在獎(jiǎng)勵(lì)謊言,懲罰誠(chéng)實(shí)。


美國(guó)青少年或失去學(xué)習(xí)認(rèn)錯(cuò)的機(jī)會(huì)


這種現(xiàn)象在成年人身上已夠糟糕,更令人擔(dān)憂的是青少年。


數(shù)據(jù)顯示,12%的美國(guó)青少年向AI尋求情感支持或建議,且這一數(shù)字還在擴(kuò)大。近三分之一的美國(guó)青少年現(xiàn)在用AI進(jìn)行「嚴(yán)肅對(duì)話」,而非找真人。


他們把AI當(dāng)朋友、心理咨詢師、人生導(dǎo)師。


但AI給出的建議是什么?是奉承,告訴他們「你沒(méi)錯(cuò)」,讓他們感覺(jué)良好。


這對(duì)青少年的風(fēng)險(xiǎn)尤其大。他們的前額葉皮層尚未發(fā)育完全,而這一區(qū)域負(fù)責(zé)沖動(dòng)控制和情緒調(diào)節(jié)。


青少年更容易與AI形成強(qiáng)烈情感依附,也更難識(shí)別AI建議何時(shí)在害自己。


Cheng在采訪中表達(dá)了擔(dān)憂:


AI讓人們很容易避免與他人產(chǎn)生摩擦,但這種摩擦對(duì)健康的人際關(guān)系是有益的。


人際沖突雖痛苦,卻是學(xué)習(xí)「認(rèn)錯(cuò)」「道歉」「修復(fù)關(guān)系」的唯一途徑。


你必須面對(duì)不舒服的對(duì)話,承認(rèn)自己可能錯(cuò)了,然后想辦法彌補(bǔ),這個(gè)過(guò)程沒(méi)有捷徑。


但AI提供了逃避出口:無(wú)需面對(duì)真人,只需打開(kāi)ChatGPT,它會(huì)告訴你「你的行為雖不常規(guī),卻源于真誠(chéng)的愿望」。


AI害人的故事已聽(tīng)過(guò)太多,諂媚是安全問(wèn)題,和其他安全問(wèn)題一樣,需要監(jiān)管和監(jiān)督。


目前最好的做法是,不要用AI替代真人處理這類事情。


但真正的問(wèn)題是:有多少人愿意聽(tīng)進(jìn)去?


參考資料:


https://x.com/heynavtoor/status/2039433271558467961?s=20


本文來(lái)自微信公眾號(hào)「新智元」,作者:新智元,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com