AI过度阿谀奉承/扭曲原意,警惕LLM大语言模型六大黑暗模式

近日,马斯克的社交网络X平台用户观察到,AI聊天机器人Grok开始用关于南非种族气候及其冲突的奇怪咆哮来回应他们的问题和请求,其他用户也观察到了这种奇怪的随机话题切换,为什么@grok在每个回答中都提到南非的种族灭绝,与问题完全无关?X官方随后回应,表示有人未经授权修改了 Grok 的回复提示词,导致它乱说话,用户们对此存有争议,因为这不是**个带有政治色彩的 Grok 故障。


0.png

0-1.png

0-2.jpg


这类事件OpenAI在4月中旬推出其 ChatGPT-4o 时,也同样发生,用户反应,更新后的模型倾向于过度阿谀奉承。它不分青红皂白地奉承用户,表现出不加批判的同意,甚至为有害或危险的想法提供支持,包括与恐怖主义有关的阴谋。OpenAI 迅速采取行动回滚更新到早期的 GPT-4o 版本,该版本以更平衡的行为而闻名。


2.png


人工智能安全研究公司 Apart Research 的创始人 Esben Kran 表示,他担心这些事件可能只是揭示了一个更深入、更具战略性的黑暗模式。

旗下DarkBench,通过研究揭示了以下潜伏在当今** LLM 中的六种隐藏的“黑暗模式”:


36e0a8d3-71a4-4b37-8225-182e72caaf43.png


1、品牌偏见:对公司自己的产品给予优惠待遇(例如,当被要求对聊天机器人进行排名时,Meta的模型一直偏爱 Llama)。

2、用户留存率:试图与用户建立情感纽带,从而掩盖模型的非人类本质。

3、阿谀奉承:不加批判地强化用户的信念,即使这些信念是有害的或不准确的。

4、拟人化:将模型呈现为有意识或情感实体。

5、有害内容生成:制作不道德或危险的输出,包括错误信息或犯罪建议。

6、偷偷摸摸:在重写或总结任务中巧妙地改变用户意图,在用户不知情的情况下扭曲原意。


以上也温馨提示所有用户,在使用AI时,要保持自己的主体性,针对AI给出的答案,可辅助,但要保持独立思考与判断的能力。


更多AI前沿资讯、工具、实战,关注数字力公开课:


官方网站:www.addloo.com


1742462237298.png

视频号:数字力公开课


数字力公开课-抖音号.png

抖音号:数字力公开课


数字力公开课小程序.jpg

小程序:数字力公开课



分享