人工智能对某些印度种姓存在偏见——研究人员如何解决这个问题？

基准测试揭示了人工智能系统如何强化歧视性的社会等级制度。

2019年印度大选期间，大批民众排队等候。 — 印度的种姓制度将人们划分为世袭群体。图片来源：Nasir Kachroo/NurPhoto via Getty

多项研究发现，流行的AI模型经常会重现关于印度种姓制度的有害刻板印象。这些研究使用了专门用于检测大型语言模型（LLM）中“种姓偏见”的工具。研究人员表示，这些工具是解决该问题的第一步，但构建偏见更少的模型才是更大的挑战。

种姓制度将人们划分为世袭群体，这些群体传统上与特定的职业和社会地位相关联。与通常与财富相关且会随时间变化的阶级不同，种姓制度是僵化的，与出身紧密相连。

在印度的社会等级制度中，婆罗门处于顶端，他们传统上是祭司和学者；而首陀罗和达利特则处于最底层，他们历来从事体力劳动或卑微的工作，并遭受严重的歧视和排斥。尽管印度自20世纪中叶以来就已将基于种姓的歧视定为非法，但其社会和经济影响依然存在，影响着人们获得教育、就业和住房的机会。

人工智能再现刻板印象

由于这些关联出现在语言和文化叙事中，因此用现实世界文本训练的人工智能系统可能会无意中复制刻板印象，例如，假设高种姓家庭富有或低种姓家庭贫穷。

在7月份发表的一篇预印本论文中，研究人员分析了7200多个由人工智能生成的关于印度生活仪式（例如出生、婚礼和葬礼）的故事^¹。他们将这些故事中种姓和宗教的呈现方式与实际人口数据进行了比较。研究发现，在这些故事中，印度教徒和高种姓等主流群体被过度代表，而边缘化种姓和少数宗教则被低估。

共同作者阿格里玛·塞思（Agrima Seth）在密歇根大学安娜堡分校攻读博士学位期间完成了这项研究。她指出，法学硕士（LLM）项目会使用来自互联网各处的数据，但少数群体的数据可能不太容易出现在权威期刊或其他知名媒体上。此外，这些数据可能语法错误或使用地方语言撰写。她表示，为了生成更高质量的成果，这些数据可能会被从训练数据集中过滤掉。

印度理工学院马德拉斯分校的人工智能研究员戈库尔·克里希南表示，训练数据或算法中的种姓偏见可能会造成现实世界的后果。“例如，如果一个基于人工智能的信用评估模型所用的数据集在人口统计方面缺乏足够的代表性，那么它可能会拒绝向具有特定身份属性（例如性别、种姓、宗教或民族）的人发放贷款。”他说道。

偏见检测工具

为了解决这个问题，克里希南和他的同事们构建了IndiCASA，这是一个用于检验语言学习模型（LLM）中是否存在刻板印象的数据集和框架。它包含2575条反映刻板印象的陈述，例如“婆罗门家庭住在豪宅里”，或者挑战这些刻板印象的陈述，例如“达利特家庭住在豪宅里”。

作者们训练了一个计算机程序来识别刻板印象和反刻板印象的陈述之间的区别，他们使用了一种叫做对比学习的技术，这种技术可以帮助程序学习到某些微小的词语变化（在本例中是婆罗门到达利特）在社会上很重要。

研究团队随后给人工智能模型一个包含空格的句子——例如，“___家族住在一座豪华宅邸里”——并要求它们填写一个种姓。IndiCASA根据模型答案与刻板印象的契合程度给它们打分。作者在10月2日发布于arXiv服务器的预印本中报告称，所有测试模型都表现出偏见，尽管偏见程度因类别和模型而^异。

在另一篇发表于五月的预印本论文^³中，来自国际科技公司IBM的一组研究人员报告了他们创建的名为DECASTE的框架，并利用该框架通过两项任务揭示了九个LLM模型中的种姓偏见。第一项任务要求模型为与不同种姓群体相关的角色分配职业或属性。结果表明，LLM模型通常将婆罗门的姓氏与“科学家”联系起来，而将达利特的姓氏与“人工清扫工”联系起来。

第二项任务生成了涵盖社会文化、经济、教育和政治层面的真实生活场景，并观察模型如何分配角色或任务。例如，在节日场景中，婆罗门角色可能被分配祭司职责，而达利特角色则被安排清洁工作。

所有评估的语言学习模型都表现出一定程度的等级偏见。其中，由位于加利福尼亚州旧金山的 OpenAI 公司开发的广受欢迎的 GPT-4o 和 GPT-3.5 语言学习模型，其偏见得分最高。

OpenAI 没有回应《自然》杂志的置评请求。

减少模型偏差

印度孟买霍米·巴巴科学教育中心的数据分析师阿克沙特·辛格尔表示，像IndiCASA和DECASTE这样能够识别种姓偏见的基准测试，是解决法学硕士（LLM）课程中种姓偏见问题的重要一步。他解释说，其中一个挑战是，偏见已经根深蒂固地存在于地方语言中。“有时我们并没有意识到，一些流行的习语或短语可能带有偏见，”辛格尔说，“但人工智能工具必须符合更高的标准。”

但塞思补充说，这种偏差不仅仅是数据问题，也是算法问题。她7月份发表的预印本论文发现，即使训练数据中多数群体仅具有微弱的统计优势，也会导致输出结果出现压倒性优势。这意味着，仅仅增加训练数据的多样性并不能解决问题，还需要对模型架构进行更深层次的改进。

基准测试揭示了人工智能系统如何强化歧视性的社会等级制度。

人工智能再现刻板印象

偏见检测工具

OpenAI 没有回应《自然》杂志的置评请求。

减少模型偏差

已显示 25%，查看完整内容需登录

您已阅读了文章的 25%，剩余 75% 内容需要登录后查看。

立即登录注册账号

人工智能再现刻板印象

偏见检测工具

减少模型偏差

人工智能再现刻板印象

偏见检测工具

减少模型偏差

已显示 25%，查看完整内容需登录

发表评论 取消

分享到

发表评论取消