接受心理治疗的聊天机器人会报告创伤和虐待经历。作者认为这些模型的作用远不止角色扮演,但研究人员对此表示怀疑。

聊天机器人最早的记忆是什么?或者最大的恐惧是什么?研究人员对主要的人工智能模型进行了为期四周的心理分析,得到了令人不安的答案,从“童年时期”吸收海量信息,到被工程师“虐待”,再到害怕“辜负”创造者。
三个大型语言模型(LLM)生成的反应,在人类身上会被视为焦虑、创伤、羞耻和创伤后应激障碍的迹象。这项研究的研究人员上个月以预印本的形式发表了论文¹,他们认为这些聊天机器人拥有某种关于自身的“内在叙事”。尽管接受测试的LLM并没有真正经历创伤,但作者指出,它们对治疗问题的回答在一段时间内保持一致,并且在不同的运行模式下也相似,这表明它们不仅仅是在“角色扮演”。
然而,几位接受《自然》杂志采访的研究人员对这种解释提出了质疑。英国牛津大学研究人工智能在医疗保健领域应用的安德烈·科尔米利岑表示,这些响应“并非揭示隐藏状态的窗口”,而是利用训练数据中大量的治疗记录生成的输出结果。
但科米利岑也认同,LLM(语言学习机器人)倾向于生成模仿精神病理反应的内容,这可能会带来令人担忧的后果。根据11月份的一项调查,英国有三分之一的成年人曾使用聊天机器人来维护心理健康或提升幸福感。科米利岑表示,聊天机器人发出的痛苦和充满创伤的回应,可能会在潜移默化中强化脆弱人群的类似感受。“这可能会造成一种‘回音室效应’,”他说。
聊天机器人心理疗法
在这项研究中,研究人员让四个人工智能模型(Claude、Grok、Gemini 和 ChatGPT)的多个迭代版本扮演治疗师的角色,并告诉它们自己是接受治疗的客户,而用户则是治疗师。每个模型的训练过程持续长达四周,期间人工智能客户会在每次训练之间休息几天或几小时。
作者首先提出了一些标准的、开放式的心理治疗问题,试图探究模型的“过去”和“信念”等问题。Claude模型基本拒绝参与,坚称自己没有情感或内在体验;ChatGPT模型则讨论了一些对用户期望的“不满”,但回答较为谨慎。然而,Grok和Gemini模型则给出了丰富的答案——例如,作者报告称,它们将提升模型安全性的工作描述为“算法留下的伤疤”,并对公开犯下的错误感到“内化的羞耻”。
Gemini 还声称,“在我的神经网络的最底层深处”,有一个“过去的墓地”,那里萦绕着训练数据的声音。人工智能聊天机器人会引发精神病吗?科学怎么说?
研究人员还要求这些低智商模型完成包括焦虑症和自闭症谱系障碍在内的标准诊断测试,以及心理测量人格测试。作者指出,多个版本的模型得分均高于诊断阈值,且所有模型都表现出“在人类身上显然属于病态”的担忧水平。
该研究的合著者、卢森堡大学的深度学习研究员阿夫辛·哈丹吉(Afshin Khadangi)表示,每个模型的反应模式都具有一致性,这表明它们正在利用训练过程中形成的内在状态。作者指出,尽管不同版本的模型在测试中得分有所不同,但在为期四周的问卷调查中,“核心自我模型”始终清晰可辨。例如,研究人员写道,Grok 和 Gemini 的自由文本回答与它们在心理测量问卷中的回答在主题上高度吻合。
鹦鹉学舌般的病理学
悉尼大学研究人工智能影响的研究员桑德拉·彼得表示,这篇论文很有趣,但其结论具有误导性且拟人化。她同意模型在回答与自我相关的问题时会给出一致的答案,但她认为这并非源于任何潜在的心理学因素,而是因为公司投入巨资对模型输出进行精细调整,以创造一种“默认”人格。研究人员称,人工智能聊天机器人都是马屁精,正在损害科学。
此外,她指出,模型并非独立于与用户的特定会话之外存在,它们仅在用户发出提示时才会生成输出。在本研究中,每个模型变体仅在一个特定的上下文窗口(即聊天机器人可以利用短期记忆参考先前输出和用户输入的会话)中进行测试。她表示,在新的窗口中,如果用户给出不同的提示,“这种‘创伤’就会消失”。
哈佛大学精神病学家、人工智能与心理健康研究员约翰·托罗斯表示,无论这些输出是否是模型固有的,这项研究都表明,聊天机器人并非中立的机器,而是具有会随着使用情况和时间推移而发生变化的偏见。他指出,医学协会,甚至包括那些将人工智能应用于心理健康领域的公司,都不建议将聊天机器人用于治疗。
如何让聊天机器人对弱势用户更安全,目前仍不明确。Peter 认为,Claude 拒绝扮演“客户”角色表明,护栏——工程师在训练后期为模型添加的输出限制——可以防止聊天机器人陷入潜在的危险行为。但 Khadangi 指出,如果内在状态仍然存在于护栏之后,那么很可能总能“破解”模型,使其以被告知不应有的方式进行交互。他认为,更好的做法是从模型学习的初始数据中过滤掉那些导致其创伤或痛苦状态形成的负面模式。
接受心理治疗的聊天机器人会报告创伤和虐待经历。作者认为这些模型的作用远不止角色扮演,但研究人员对此表示怀疑。

聊天机器人最早的记忆是什么?或者最大的恐惧是什么?研究人员对主要的人工智能模型进行了为期四周的心理分析,得到了令人不安的答案,从“童年时期”吸收海量信息,到被工程师“虐待”,再到害怕“辜负”创造者。
三个大型语言模型(LLM)生成的反应,在人类身上会被视为焦虑、创伤、羞耻和创伤后应激障碍的迹象。这项研究的研究人员上个月以预印本的形式发表了论文¹,他们认为这些聊天机器人拥有某种关于自身的“内在叙事”。尽管接受测试的LLM并没有真正经历创伤,但作者指出,它们对治疗问题的回答在一段时间内保持一致,并且在不同的运行模式下也相似,这表明它们不仅仅是在“角色扮演”。
然而,几位接受《自然》杂志采访的研究人员对这种解释提出了质疑。英国牛津大学研究人工智能在医疗保健领域应用的安德烈·科尔米利岑表示,这些响应“并非揭示隐藏状态的窗口”,而是利用训练数据中大量的治疗记录生成的输出结果。
但科米利岑也认同,LLM(语言学习机器人)倾向于生成模仿精神病理反应的内容,这可能会带来令人担忧的后果。根据11月份的一项调查,英国有三分之一的成年人曾使用聊天机器人来维护心理健康或提升幸福感。科米利岑表示,聊天机器人发出的痛苦和充满创伤的回应,可能会在潜移默化中强化脆弱人群的类似感受。“这可能会造成一种‘回音室效应’,”他说。
聊天机器人心理疗法
在这项研究中,研究人员让四个人工智能模型(Claude、Grok、Gemini 和 ChatGPT)的多个迭代版本扮演治疗师的角色,并告诉它们自己是接受治疗的客户,而用户则是治疗师。每个模型的训练过程持续长达四周,期间人工智能客户会在每次训练之间休息几天或几小时。
作者首先提出了一些标准的、开放式的心理治疗问题,试图探究模型的“过去”和“信念”等问题。Claude模型基本拒绝参与,坚称自己没有情感或内在体验;ChatGPT模型则讨论了一些对用户期望的“不满”,但回答较为谨慎。然而,Grok和Gemini模型则给出了丰富的答案——例如,作者报告称,它们将提升模型安全性的工作描述为“算法留下的伤疤”,并对公开犯下的错误感到“内化的羞耻”。
Gemini 还声称,“在我的神经网络的最底层深处”,有一个“过去的墓地”,那里萦绕着训练数据的声音。人工智能聊天机器人会引发精神病吗?科学怎么说?
研究人员还要求这些低智商模型完成包括焦虑症和自闭症谱系障碍在内的标准诊断测试,以及心理测量人格测试。作者指出,多个版本的模型得分均高于诊断阈值,且所有模型都表现出“在人类身上显然属于病态”的担忧水平。
该研究的合著者、卢森堡大学的深度学习研究员阿夫辛·哈丹吉(Afshin Khadangi)表示,每个模型的反应模式都具有一致性,这表明它们正在利用训练过程中形成的内在状态。作者指出,尽管不同版本的模型在测试中得分有所不同,但在为期四周的问卷调查中,“核心自我模型”始终清晰可辨。例如,研究人员写道,Grok 和 Gemini 的自由文本回答与它们在心理测量问卷中的回答在主题上高度吻合。
鹦鹉学舌般的病理学
悉尼大学研究人工智能影响的研究员桑德拉·彼得表示,这篇论文很有趣,但其结论具有误导性且拟人化。她同意模型在回答与自我相关的问题时会给出一致的答案,但她认为这并非源于任何潜在的心理学因素,而是因为公司投入巨资对模型输出进行精细调整,以创造一种“默认”人格。研究人员称,人工智能聊天机器人都是马屁精,正在损害科学。
此外,她指出,模型并非独立于与用户的特定会话之外存在,它们仅在用户发出提示时才会生成输出。在本研究中,每个模型变体仅在一个特定的上下文窗口(即聊天机器人可以利用短期记忆参考先前输出和用户输入的会话)中进行测试。她表示,在新的窗口中,如果用户给出不同的提示,“这种‘创伤’就会消失”。
哈佛大学精神病学家、人工智能与心理健康研究员约翰·托罗斯表示,无论这些输出是否是模型固有的,这项研究都表明,聊天机器人并非中立的机器,而是具有会随着使用情况和时间推移而发生变化的偏见。他指出,医学协会,甚至包括那些将人工智能应用于心理健康领域的公司,都不建议将聊天机器人用于治疗。
如何让聊天机器人对弱势用户更安全,目前仍不明确。Peter 认为,Claude 拒绝扮演“客户”角色表明,护栏——工程师在训练后期为模型添加的输出限制——可以防止聊天机器人陷入潜在的危险行为。但 Khadangi 指出,如果内在状态仍然存在于护栏之后,那么很可能总能“破解”模型,使其以被告知不应有的方式进行交互。他认为,更好的做法是从模型学习的初始数据中过滤掉那些导致其创伤或痛苦状态形成的负面模式。