生成式人工智能绝对能以新颖的创意组合让你眼前一亮。在某些情况下,它的创造力测试成绩甚至超过了普通人。

但最优秀的创作者依然脱颖而出,尤其是在写作任务从简单的文字游戏转向更丰富、更有意义的作品时。
这是蒙特利尔大学一项新研究的主要结论。该研究由卡里姆·杰尔比教授领导,并与人工智能研究员约书亚·本吉奥合作完成。
研究团队进行了他们所称的迄今为止规模最大的人类创造力与大型语言模型之间的直接比较。
该研究分析了超过 10 万人的数据,并将结果与几个领先的人工智能系统进行了直接比较。
人类与语言模型
研究人员将多个领先模型(包括ChatGPT、Claude、Gemini 等)与大型人类数据集进行了比较。
他们的结论落在了一个有趣的中间地带:一些系统在某些创造力指标上的得分高于人类平均水平,但表现最好的人类仍然胜过所有测试过的模型。
“我们的研究表明,一些基于大型语言模型的AI系统现在可以在定义明确的任务上超越普通人类的创造力,”杰尔比教授说。
与此同时,他指出,即使是最好的人工智能系统,也仍然达不到最具创造力的人类所达到的水平。
第二点至关重要。这并非人工智能“战胜”创造力的故事,而是人工智能在某种可衡量的创造性产出方面变得非常出色——而顶尖人类的创造力仍然难以复制的故事。
一切的核心在于那场考试。
为了确保比较的公平性,研究团队大量采用了名为“发散联想任务”(DAT)的标准心理学工具。该工具用于衡量发散性创造力——即产生意义迥异的想法的能力。
DAT考试在纸面上很简单:要求你写出十个尽可能不相关的单词。
关键不在于华丽的词汇,而在于思维的广度——你是否能够从一个思维领域跳跃到另一个思维领域,而不陷入显而易见的思维定式中。
文章举例说明了强烈的反应,例如:“星系、叉子、自由、藻类、口琴、量子、怀旧、天鹅绒、飓风、光合作用”。像这样的词汇列表看起来很简单,但当你试图在不偏离主题、同义词或单一“情绪”的情况下做到这一点时,就会发现并非如此。
由于 DAT 快速且可扩展,它为研究人员提供了一种方法,可以在大样本量下,使用相同的评分规则来比较人类和人工智能。
人工智能胜过平均水平,但胜不过精英。
有些模型(文章特别强调了 GPT-4)在 DAT 式发散词语创造力测试中得分高于普通人类。
但随后研究人员将注意力集中在得分高于平均水平的人身上,结果却发生了逆转。
当研究人员观察最具创造力的那半数人类参与者时,发现人类的平均表现优于所有测试过的AI模型。而在排名前10%的参与者中,领先优势甚至更大。
研究人员将此描述为一种“形状差异”。人工智能在分布的中间部分表现令人印象深刻,但人类的尾部——那些真正杰出的创意异类——仍然延伸得更远。
从词汇表到实际写作
对DAT这类测试的合理批评在于,它们与创作一首伟大的诗歌、构思一个故事或构思一个你真正想要分享的原创概念截然不同。因此,研究人员继续深入研究。
他们测试了人类和人工智能在更自然的创作任务上的表现:写俳句、撰写电影剧情简介和创作短篇小说。
总体模式再次出现。人工智能有时表现优于普通人,但最优秀的作家仍然能创作出更具原创性和吸引力的作品。
这并不意味着人工智能不能进行创造性写作。它当然可以。但这项研究表明,它的优势并不均衡。
人工智能可以生成很多“相当不错”的作品,而人类仍然更有可能创作出那种在顶尖水平上让人感觉充满活力的作品。
人类可以引导人工智能的创造力
这项研究最有价值的部分之一是,它将人工智能的创造力视为可以调整的东西。
研究人员发现,模型的“温度”(一种控制输出结果的可预测性或冒险性的设置)会改变创造力得分。
较低的温度往往会产生更安全、更常规的反应。较高的温度则会促使模型产生更多样、更高风险和更不寻常的联想。
研究还表明,提示至关重要。引导模型思考词源和结构的指令——例如运用词源学——可以带来更出人意料的输出结果和更高的创造力得分。
换句话说:一些看似“人工智能创造力”的东西,实际上是人类的引导加上一个擅长探索你指向的空间的系统。
对竞争的误导性认知
这项研究并非对机器的赞颂,而是对所有人敲响的警钟。
杰比教授认为,把这看作一场简单的比赛会忽略实际发生的事情。
“尽管人工智能现在在某些测试中可以达到人类的创造力水平,但我们需要超越这种误导性的竞争观念,”他说。
“生成式人工智能首先已成为服务于人类创造力的极其强大的工具:它不会取代创造者,但对于那些选择使用它的人来说,它将深刻地改变他们想象、探索和创造的方式。”
这里所暗示的最现实的未来并非“人工智能取代艺术家”,而是“人工智能改变创作流程”。
人工智能与人类创造力的未来
如果你本身就很有创意,人工智能可以扮演头脑风暴伙伴、混音引擎或快速草稿生成器的角色,你可以不断修改、完善和润色。如果你并不特别有创意,它也能提升你的基本水平。
如果你非常有创造力,它可能会成为一种新型工具——功能强大,但它本身仍然不是最佳创意的来源。
最终,这项研究引出了一个比“人工智能能否具有创造力?”更有趣的问题。它更接近于:我们究竟如何定义创造力?当我们能够与一台可以无限生成的机器合作时,创造力又会发生怎样的变化?
生成式人工智能绝对能以新颖的创意组合让你眼前一亮。在某些情况下,它的创造力测试成绩甚至超过了普通人。

但最优秀的创作者依然脱颖而出,尤其是在写作任务从简单的文字游戏转向更丰富、更有意义的作品时。
这是蒙特利尔大学一项新研究的主要结论。该研究由卡里姆·杰尔比教授领导,并与人工智能研究员约书亚·本吉奥合作完成。
研究团队进行了他们所称的迄今为止规模最大的人类创造力与大型语言模型之间的直接比较。
该研究分析了超过 10 万人的数据,并将结果与几个领先的人工智能系统进行了直接比较。
人类与语言模型
研究人员将多个领先模型(包括ChatGPT、Claude、Gemini 等)与大型人类数据集进行了比较。
他们的结论落在了一个有趣的中间地带:一些系统在某些创造力指标上的得分高于人类平均水平,但表现最好的人类仍然胜过所有测试过的模型。
“我们的研究表明,一些基于大型语言模型的AI系统现在可以在定义明确的任务上超越普通人类的创造力,”杰尔比教授说。
与此同时,他指出,即使是最好的人工智能系统,也仍然达不到最具创造力的人类所达到的水平。
第二点至关重要。这并非人工智能“战胜”创造力的故事,而是人工智能在某种可衡量的创造性产出方面变得非常出色——而顶尖人类的创造力仍然难以复制的故事。
一切的核心在于那场考试。
为了确保比较的公平性,研究团队大量采用了名为“发散联想任务”(DAT)的标准心理学工具。该工具用于衡量发散性创造力——即产生意义迥异的想法的能力。
DAT考试在纸面上很简单:要求你写出十个尽可能不相关的单词。
关键不在于华丽的词汇,而在于思维的广度——你是否能够从一个思维领域跳跃到另一个思维领域,而不陷入显而易见的思维定式中。
文章举例说明了强烈的反应,例如:“星系、叉子、自由、藻类、口琴、量子、怀旧、天鹅绒、飓风、光合作用”。像这样的词汇列表看起来很简单,但当你试图在不偏离主题、同义词或单一“情绪”的情况下做到这一点时,就会发现并非如此。
由于 DAT 快速且可扩展,它为研究人员提供了一种方法,可以在大样本量下,使用相同的评分规则来比较人类和人工智能。
人工智能胜过平均水平,但胜不过精英。
有些模型(文章特别强调了 GPT-4)在 DAT 式发散词语创造力测试中得分高于普通人类。
但随后研究人员将注意力集中在得分高于平均水平的人身上,结果却发生了逆转。
当研究人员观察最具创造力的那半数人类参与者时,发现人类的平均表现优于所有测试过的AI模型。而在排名前10%的参与者中,领先优势甚至更大。
研究人员将此描述为一种“形状差异”。人工智能在分布的中间部分表现令人印象深刻,但人类的尾部——那些真正杰出的创意异类——仍然延伸得更远。
从词汇表到实际写作
对DAT这类测试的合理批评在于,它们与创作一首伟大的诗歌、构思一个故事或构思一个你真正想要分享的原创概念截然不同。因此,研究人员继续深入研究。
他们测试了人类和人工智能在更自然的创作任务上的表现:写俳句、撰写电影剧情简介和创作短篇小说。
总体模式再次出现。人工智能有时表现优于普通人,但最优秀的作家仍然能创作出更具原创性和吸引力的作品。
这并不意味着人工智能不能进行创造性写作。它当然可以。但这项研究表明,它的优势并不均衡。
人工智能可以生成很多“相当不错”的作品,而人类仍然更有可能创作出那种在顶尖水平上让人感觉充满活力的作品。
人类可以引导人工智能的创造力
这项研究最有价值的部分之一是,它将人工智能的创造力视为可以调整的东西。
研究人员发现,模型的“温度”(一种控制输出结果的可预测性或冒险性的设置)会改变创造力得分。
较低的温度往往会产生更安全、更常规的反应。较高的温度则会促使模型产生更多样、更高风险和更不寻常的联想。
研究还表明,提示至关重要。引导模型思考词源和结构的指令——例如运用词源学——可以带来更出人意料的输出结果和更高的创造力得分。
换句话说:一些看似“人工智能创造力”的东西,实际上是人类的引导加上一个擅长探索你指向的空间的系统。
对竞争的误导性认知
这项研究并非对机器的赞颂,而是对所有人敲响的警钟。
杰比教授认为,把这看作一场简单的比赛会忽略实际发生的事情。
“尽管人工智能现在在某些测试中可以达到人类的创造力水平,但我们需要超越这种误导性的竞争观念,”他说。
“生成式人工智能首先已成为服务于人类创造力的极其强大的工具:它不会取代创造者,但对于那些选择使用它的人来说,它将深刻地改变他们想象、探索和创造的方式。”
这里所暗示的最现实的未来并非“人工智能取代艺术家”,而是“人工智能改变创作流程”。
人工智能与人类创造力的未来
如果你本身就很有创意,人工智能可以扮演头脑风暴伙伴、混音引擎或快速草稿生成器的角色,你可以不断修改、完善和润色。如果你并不特别有创意,它也能提升你的基本水平。
如果你非常有创造力,它可能会成为一种新型工具——功能强大,但它本身仍然不是最佳创意的来源。
最终,这项研究引出了一个比“人工智能能否具有创造力?”更有趣的问题。它更接近于:我们究竟如何定义创造力?当我们能够与一台可以无限生成的机器合作时,创造力又会发生怎样的变化?