人工智能现在可以“看到”光学错觉。这告诉我们关于我们自身大脑的什么信息？

Estudio Santa Rita/BBC 涉及花瓶和面孔的视错觉插图（图片来源：Estudio Santa Rita/BBC） — （来源：圣丽塔工作室/BBC）

我们的眼睛经常会欺骗我们，但科学家发现，某些人工智能也会受到同样的错觉影响。这正在改变我们对大脑的认知。

当我们抬头看月亮时，它靠近地平线时看起来比在天空较高处时更大，尽管月亮的大小以及地球和月亮之间的距离在一个夜晚内基本保持不变。

诸如此类的视错觉表明，我们并非总能以应有的方式感知现实。它们通常被认为是视觉系统犯下的错误。但错觉也揭示了我们的大脑用来提取周围环境中最重要细节的巧妙捷径。

事实上，我们的大脑只能接受周围世界的一小部分信息——处理我们繁忙的视觉环境中的每一个细节对我们来说负担太重，所以它们只会挑选出我们需要的细节。

但是，如果给一个合成思维——一个由人工智能驱动的机器视觉系统——一个光学错觉，会发生什么呢？这些系统擅长捕捉细节。它们的设计目的就是发现我们人类看不到的模式和瑕疵。正因如此，它们才能如此有效地在医学扫描中发现疾病的早期迹象。

然而，一些深度神经网络（DNN）——支撑当今许多先进人工智能算法的技术——也像我们人类一样，容易受到某些视觉陷阱的影响。这为我们理解自身大脑的运作方式提供了新的视角。

“在错觉研究中使用深度神经网络，可以让我们模拟和分析大脑如何处理信息并产生错觉，”日本国立基础生物学研究所神经生理学副教授渡边英二表示。“对人脑进行实验操作会引发严重的伦理问题，但此类限制并不适用于人工智能模型。”

目前为止，还没有哪个深度神经网络能够体验到人类所经历的所有错觉。

尽管关于我们为什么会感知到不同的视觉错觉有很多理论，但在大多数情况下，仍然没有一个决定性的解释。

对那些不会产生视错觉的人的研究提供了一些线索。例如，一位幼年失明、40多岁才恢复视力的人，不会被形状错觉所迷惑，比如著名的卡尼萨方阵——四个巧妙放置的圆形碎片构成了一个类似正方形的错觉轮廓。然而，他却能感知到运动错觉，比如理发店的旋转灯柱——灯柱上的条纹看起来像是向上移动，而实际上灯柱只是绕着垂直轴旋转而已。

类似案例的研究似乎表明，与理解形状相比，我们感知运动的能力更能抵抗感觉剥夺的影响。这可能是因为我们在婴儿时期就学会了处理运动信息。另一种解释是，我们处理形状的方式可能更具可塑性，更容易识别我们接触最多的形状。

利用功能性磁共振成像（fMRI）进行的脑成像研究也让我们得以了解，当我们看到不同的错觉时，大脑的哪些区域处于活跃状态，以及它们之间是如何相互作用的。然而，我们对视错觉的感知是主观的，并且会因人而异。例如， 2015年一张在网上疯传的条纹连衣裙照片就说明了这一点，观看者们对裙子的颜色——蓝黑相间还是白金相间——莫衷一是。这使得客观地研究视错觉变得困难，因为研究人员通常依赖于参与者对他们所见景象的描述。

现在，人工智能为我们提供了一种新的方式来理解当我们观察视错觉时大脑中发生的事情。

当今使用的许多人工智能算法（包括 ChatGPT 等聊天机器人）都由深度神经网络驱动，深度神经网络是由人工神经元组成的模型，试图模仿我们的大脑处理信息的方式。

在最近的一项研究中，渡边和他的同事们想要探究深度神经网络能否模拟我们观看涉及运动的错觉图像（例如旋转蛇错觉）时大脑中发生的反应。这种错觉图像由静态图像中色彩斑斓的圆圈组成，当我们注视它时，这些圆圈看起来就像在旋转。

渡边和他的团队使用了一种名为PredNet的深度神经网络，该网络的设计基于一种关于大脑如何处理视觉信息的领先理论——预测编码。该理论认为，当我们环顾四周时，视觉系统并非被动地处理周围环境中的特征。相反，它会先利用过去的经验预测即将看到的内容，然后再处理来自眼睛的输入信息中的差异。这使我们能够更快地感知周围环境。

类似地，PredNet 能够根据从先前帧中获取的知识来预测视频中的后续帧。在实验中，渡边用头戴式摄像机拍摄的自然景观视频训练人工智能，这些视频与人类环顾四周时所看到的景象相似。该系统从未接触过任何视觉错觉。通过向其展示一些它从未见过的帧，研究人员设计了使其预测结果尽可能与实际帧相匹配的方法。

Estudio Santa Rita/BBC 利用透视原理制造图像是一种常见的视觉错觉，它们也能欺骗人工智能（图片来源：Estudio Santa Rita/BBC） — 利用透视原理的图像是一种常见的光学错觉，它们也能欺骗人工智能（图片来源：Estudio Santa Rita/ BBC）。

渡边说：“在处理了大约一百万帧图像后，PredNet 学习到了视觉世界的某些规则。它提取并记住了这些基本规则，其中可能还包括运动物体的特征。”

渡边随后向人工智能模型展示了几种旋转蛇错觉图像的变体，以及一种经过修改、人脑不会上当受骗、因而会将其视为静态图像的版本。他发现，人工智能模型和人类一样，都会被同样的图像所欺骗。渡边认为，这支持了我们的大脑使用预测编码的理论。在这种情况下，图像中某些暗示物体运动的特征会触发我们大脑的预测系统，使我们误认为这些五彩斑斓的蛇在运动。

“我认为 PredNet 的感知与人类的感知类似，”他说。

然而，渡边和他的团队也发现人工智能和人类对这种错觉的感知存在差异。例如，当我们注视其中一个旋转的圆时，它似乎停止了转动，而我们余光中的其他圆盘则继续旋转。然而，PredNet始终感知到所有圆盘同时运动。

渡边表示：“这很可能是因为PredNet缺乏注意力机制。”这意味着它无法专注于图像上的特定区域，而是处理整个图像。

尽管人工智能系统和机器人或许能够模仿我们视觉系统的某些方面，但它们距离像我们一样感知世界还相去甚远。渡边表示，目前还没有任何深度神经网络能够体验到人类所感受到的所有错觉。

从某种程度上来说，这并不令人意外。

“例如，ChatGPT 的对话方式可能看起来像人类，但其底层深度神经网络的运作方式与人脑截然不同，”渡边说。“关键的相似之处在于，这两个系统都使用某种类型的神经元，但它们的结构和应用方式可能大相径庭。”

一些研究人员正试图将人工智能与量子力学的奇异性结合起来，以更好地模拟人类如何感知某些错觉。

此前，研究人员曾利用量子力学的概念来解释我们对内克尔立方体的感知，内克尔立方体是一种著名的歧义图形错觉，其中一个立方体似乎会在两种不同的方向之间随机切换。

经典物理理论预测，立方体应该被感知为某种状态。但在量子力学中，立方体可以同时处于两种状态，直到我们的大脑选择感知其中一种。想想著名的薛定谔的猫的思想实验：一只猫被困在一个装有可以杀死它的装置的盒子里，在有人打开盒子之前，它既是死的又是活的。

受此启发，澳大利亚巴瑟斯特查尔斯·斯图尔特大学人工智能与网络未来研究所的研究员伊万·马克西莫夫开发了一种结合量子物理学和人工智能的模型，旨在模拟我们感知内克尔立方体和类似错觉——鲁宾花瓶错觉——的方式。在鲁宾花瓶错觉中，我们有时会看到一个花瓶，有时又会看到两张侧脸。他设计了一个深度神经网络，利用量子隧穿效应处理信息。随后，该系统经过训练，能够识别这两种错觉。

当系统输入其中一个错觉时，它会生成两种解释中的一种。马克西莫夫发现，人工智能会像人类一样，随着时间的推移在这两种解释之间定期切换。而且，这些切换的时间间隔也十分相似。

“这与人们在测试中看到的结果非常接近，”他说。

这是一个很小的研究领域，但它非常重要，因为人类想要进入太空——伊万·马克西莫夫

马克西莫夫认为这并不意味着我们的大脑具有量子特性，尽管这是一个活跃的研究领域。相反，他认为这表明人类思维的某些方面，例如我们如何做决定，可以用量子理论更好地建模，而量子理论正是量子认知领域的基础。例如，在产生错觉时，我们的大脑会选择不同的版本。

这样的系统还可以用来模拟我们在太空中不同重力条件下视觉感知可能发生的变化。此前，研究人员已经研究过在国际空间站（ISS）停留一段时间的宇航员，他们在观察光学错觉方面会发生哪些变化。

他们发现，宇航员在地球上时，看到内克尔立方体等错觉图像时，通常会更频繁地从其中一个视角观察。但在轨道飞行三个月后，他们看到这两个视角的频率就几乎相同了。科学家认为，这可能是因为我们对深度的判断部分依赖于重力。当宇航员在轨道上自由漂浮时，无论坐着还是站着，他们都无法根据眼睛离地面的高度来估算距离。

“虽然这是一个很小的研究领域，但它非常重要，因为人类想要进入太空，”马克西莫夫说。

宇宙蕴藏着如此多的奇观，太空旅行者们肯定希望自己所看到的一切都是真实的。