您的位置:首页 >国外科研 >

科学家已经开发出人脸识别的计算机模型

导读 当我们睁开眼睛,我们会立即看到周围的环境。大脑如何如此迅速地形成这些丰富而详细的世界表示,是视觉研究中最大的未解之谜之一。研究大脑

当我们睁开眼睛,我们会立即看到周围的环境。大脑如何如此迅速地形成这些丰富而详细的世界表示,是视觉研究中最大的未解之谜之一。

研究大脑的科学家已经尝试使用计算机视觉模型来复制这种现象,但是到目前为止,领先的模型仅执行更简单的任务,例如在杂乱的背景下拾取物体或面部。现在,由麻省理工学院认知科学家领导的一个团队开发了一种计算机模型,该模型捕获了人类视觉系统从图像中快速生成详细场景描述的能力,并提供了一些有关大脑如何实现此功能的见解。

乔什说:“我们在这项工作中试图做的是解释感知能力比仅仅在图像的各个部分上附加语义标签要丰富得多,并探讨如何看待整个物理世界的问题。” Tenenbaum,计算认知科学教授,也是麻省理工学院计算机科学与人工智能实验室(CSAIL)和脑,思维与机器中心(CBMM)的成员。

新模型假定,当大脑接收到视觉输入时,它会迅速执行一系列计算,从而逆转计算机图形程序用来生成面部或其他物体的2D表示的步骤。这种称为有效逆图形(EIG)的模型也与非人类灵长类动物大脑的面部选择区域的电记录很好地相关,这表明灵长类动物视觉系统的组织方式与计算机模型几乎相同研究人员说。

该论文的主要作者是前MIT博士后Ilker Yildirim,他现在是耶鲁大学心理学的助理教授,该论文今天发表在《科学进展》上。洛克菲勒大学神经科学和行为学教授Tenenbaum和Winrich Freiwald是这项研究的资深作者。耶鲁大学的研究生Mario Belledonne也是作家。

逆图形

数十年来,对大脑视觉系统的研究都非常详细地研究了如何将入射到视网膜上的光转换成具有凝聚力的场景。这种理解帮助人工智能研究人员开发了可以复制该系统各方面的计算机模型,例如识别人脸或其他物体。

Tenenbaum说:“视觉是我们对人类和其他动物最了解的大脑的功能方面。”“目前,计算机视觉是AI最成功的领域之一。我们认为,机器现在可以很好地观察图片并很好地识别人脸并检测其他种类的物体。”

但是,即使这些复杂的人工智能系统也无法与人类视觉系统实现的功能相提并论。

他说:“我们的大脑不仅会检测到那里有物体,也不会识别并在上面贴上标签。”“我们看到了所有的形状,几何形状,表面,纹理。我们看到了一个非常丰富的世界。”

一个多世纪以前,医师,物理学家和哲学家赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)提出了理论,即大脑通过反转图像形成过程来创建这些丰富的表示。他假设视觉系统包含一个图像生成器,该图像生成器将用于例如生成我们在梦中看到的面孔。研究人员说,反向运行该发生器将使大脑从图像向后运动,并推断出什么样的面部或其他物体将产生该图像。

但是,问题仍然存在:大脑如何如此迅速地执行这一过程(称为逆图形)?计算机科学家已经尝试创建可以执行此任务的算法,但是以前最好的系统需要许多循环的迭代处理,比大脑为您所看到的内容创建详细的视觉表示所需的100到200毫秒要长得多。神经科学家相信,大脑的感知可以如此快速地进行,因为它是通过前馈传递,通过神经处理的几个层次化组织层实现的。

由MIT领导的团队着手建立一种特殊的深度神经网络模型,以展示神经层次结构如何快速推断场景的基本特征-在这种情况下为特定的面孔。与计算机视觉中使用的标准深层神经网络相反,后者是从表示图像中对象类别的标记数据中进行训练的,而研究人员的网络是通过一种模型来进行训练的,该模型反映了大脑内部可以面部表情的场景的内部表示形式。看起来像。

因此,他们的模型学会了逆转由计算机图形程序执行的生成面部的步骤。这些图形程序从单个人脸的三维表示开始,然后将其转换为二维图像(从特定视点看)。这些图像可以放置在任意背景图像上。研究人员认为,当您梦见或联想到某人面部的心理图像时,大脑的视觉系统可能会执行类似的操作。

研究人员训练了他们的深度神经网络以相反的方式执行这些步骤-即,它从2D图像开始,然后添加诸如纹理,曲率和光照之类的功能,以创建研究人员称为“ 2.5D”的表示形式。这些2.5D图像从特定角度指定了脸部的形状和颜色。然后将它们转换为不依赖于视点的3D表示。

免责声明:本文由用户上传,如有侵权请联系删除!