第2讲 认知的生物机理⚓
本讲概述
研究人的认知机理与信息加工过程,进而赋予机器——机器学习,包括:感觉/知觉,模式识别,注意,记忆,学习,思维,想象,情绪,神经工作机制等。
重点研究:人脑如何关注事物和获取其信息;信息如何被大脑加工;人脑如何知觉、思维及记忆。
2.1 大脑与认知⚓
大脑细胞大致分为两类:神经元(neurons)和神经胶质细胞(glial cells)。神经元逐渐延长形成轴突和树突,彼此交联形成复杂的信息交换网络。
神经元的功能是接受和传送信息。神经元与神经元,通过 突触 建立的联系,构成了极端复杂的信息传递与加工的神经回路(nerve circuit)。神经回路是脑内信息处理的基本单位。
神经元内的神经冲动,主要通过电传导;神经元之间的传导,主要通过化学传导。
神经冲动电传导的法则——全或无的法则:每个神经元都有一个刺激阈值,对阈值以下的刺激不发生反应;对阈值以上的刺激,不论其强弱均给出同样高度(幅值)的神经脉冲发放。对应于深度学习模型中大多数以 ReLU 为激活函数。
借助和参考生物视觉认知机理来发展和提高机器信息处理与认知计算能力,是一种重要的手段,例如边缘提取、DNN 深度学习等。
人的视觉感知:人从眼睛感受外界信息,产生反应和行为,过程复杂,包括初级视皮层感官细胞的视觉感知作用,以及高级皮层区域的视知觉作用(感知和认知)。
(1)视觉感知的输入信息:亮度,形状,颜色,深度,运动。
(2)视觉感知系统的神经信息处理机制:是视觉感知的核心,也是视觉认知计算的基础。可以从物理行为层次和抽象行为层次分析。
(3)视觉感知的输出:3个方面。显式的有关“什么”对象的知识,告诉主体外部环境中存在什么对象;隐式的有关“怎样”反应的知识,指导主体对外部刺激做出适当的反应;主观的视觉体验,属于哲学领域关心的意识范畴。
感受野:在感觉系统中,能够引起某一神经细胞反应的受刺激区域,称为该神经细胞的感受野。
特征觉察器:在大脑中存在着专门负责对外部刺激信息特征加工处理的特殊细胞。
生物视觉感知的生理结构:3个主要部分,外周脑、初级视皮层、纹外皮层。
外周脑即视网膜,包含大量的光感受器细胞,初级视皮层和纹外皮层的视神经细胞,主要加工一般化的简单视觉特征,如朝向、位置、颜色以及一些简单的质地和形状线索,它们之间通过皮层下网络相互连接。
- 外周脑(视网膜),由处理视觉信息的几种类型神经元组成。视网膜包含大量的光感受器细胞,分为锥状体和杆状体,其中锥状体对颜色较为敏感,有三种:感红、感绿、感蓝椎体细胞。
- 初级视皮层(V1 区,视皮层17区)。初级视皮层接收来自眼的视觉信息,是人类视皮层的主要入口。
- 纹外皮层(V2,V3,V4,V5 等)。纹外皮层具有更高级的视觉感知功能。在纹外皮层的第一个皮层区域,包含一些粗细条纹。对波长(颜色)有选择性的细胞集中在细条纹中;对运动方向性有选择性的细胞则存在于粗条纹中;对形状敏感的细胞则在粗条纹和中间条纹中都有所分布。
由于每个细胞只对单眼或双眼视野中一小块的光照变化敏感,所以一般用 感受野 描述这些细胞,这些细胞即 特征检测器 。初级视皮层 V1 区视神经细胞主要有3种感受野:
- 同心圆感受野(视网膜细胞感受野),又分为2种,一种是感受野中心光兴奋,而周边光抑制;另一种相反,感受野中心光抑制,周边光兴奋。
- 简单感受野(简单细胞,皮层简单感受野)。对大面积弥散光刺激没有反应,而对有一定方向或朝向的条纹刺激有强烈反应。若该刺激物的方向偏离该细胞“偏爱”的最优方位,则细胞反应便停止或骤减。同时,它们对该类视觉刺激的位置和空间频率也表现出了明显的选择性。
- 复杂感受野(复杂细胞,皮层复杂感受野)。复杂感受野也有方向偏好,但是对于视觉刺激在视野中的位置无选择性。即对应于特定方向的条形刺激,具有位置不变性,都能激发视神经细胞的响应。
Note
排成一条线的同心圆感受野聚合成一个简单感受野,从而对一定朝向的条形物敏感;若干个同一朝向的简单感受野,聚合到一个复杂感受野,从而使复杂感受野对任一地点的同一朝向的条形物敏感。
在基于深度卷积神经网络(CNN)的深度学习视觉研究中,感受野大小十分关键。输出特征图中的每一个像素必须响应图像中足够大的区域,以捕获关于物体的表观信息。感受野中的像素对输出单元的贡献是一个高斯分布(即感受野中心区域部分贡献较大,越往边缘贡献越小。
视觉认知特性
人们在认知景物时,常常注意和寻找其与它事物的相同与不同之处,根据使用目的进行分类。人脑的这种思维能力就构成了模式识别的能力。
在分析人类视觉注意选择机制基础上,确立媒体与认知的理论方法 → 建立计算模型,例如显著性检测。
从人的认知机理可知,人对物体的检测和识别,不只是与目标特征的学习有关,也与目标所处的背景特征与目标特征的差异性(或相似度)有关。因此,媒体认知,需关注目标周围的背景特征、环境差异。
认知心理
信息加工系统,也称“符号操作系统”,包括感受器、效应器、处理器、记忆装置。
2.2 知觉⚓
知觉是将感觉信息组成有意义的对象,在已贮存的知觉知识经验的参与下,理解当前刺激的意义。对这种刺激意义的理解(获得)就是当前刺激和已贮存的知识经验相互作用的结果。
知觉是一种模式识别。知觉从哪里开始:从整体开始。知觉的产生:有直接及间接。
知觉与感觉的联系:
- 感觉:人脑对事物的个别属性的认识。
- 知觉:客观事物直接作用于感官而在头脑中产生的对事物整体的认识。知觉以感觉作基础,但不是个别感觉信息的简单总和。知觉是按一定方式来整合个别的感觉信息,形成一定的结构,并根据个体的经验来解释由感觉提供的信息。
知觉的信息加工过程:自上而下加工和自下而上加工的结合。
- 自下而上加工(数据驱动加工),指由外部刺激开始的加工,通常是先通过对较小的知觉单元进行分析,然后再转向较大的知觉单元,经过一系列连续阶段的加工,而达到对感觉刺激的解释。
- 自上而下加工(概念驱动加工),是由有关知觉对象的一般知识开始的加工,由此可以形成期望或对知觉对象的假设,这种期望或假设制约着加工的所有阶段或水平,从而调整特征觉察器,引导对细节的注意等。
知觉的特性:
- 知觉的恒常性:当知觉的客观条件在一定范围内发生改变时,知觉印象在相当程度上保持稳定性。
- 形状恒常性:从不同角度观察同一物体时,物体在视网膜上投射的形状是不断变化的,但是我们知觉到的物体形状并没有显出很大的变化。
- 大小恒常性:从不同距离观看同一物体时,物体在视网膜上成像大小是有变化的(距离大,成像小;距离小,成像大);但是我们知觉到的大小却不完全随着距离而变化,趋向于原物的实际大小。
- 明度(视亮度)恒常性:在照明条件改变时,物体的相对明度(视亮度)保持不变;我们看到的物体的明度(视亮度),并不取决于照明的条件,而是取决于物体表面的反射系数。
- 颜色恒常性:一个有色物体在色光照明下,表面颜色并不受色光的严重影响,而是相对保持不变。
对应到计算机视觉领域中——特征空间不变性,应用有 SIFT(scale-invariant feature transform 尺度不变特征变换)、STN(spatial transformer networks 空间变换网络)等。
知觉的种类:
根据知觉时起主导作用的感官特性,知觉可分为:视知觉、听知觉、触知觉、嗅知觉、味知觉。在这些听觉中,除占主导作用的感官外,还有其他感觉器官参与。
根据人脑所认识的事物特性,知觉可分为:空间知觉、时间知觉和运动知觉。
- 空间知觉,处理物体的大小、形状、方位和距离。是对物体空间关系的认知,包括形状知觉、大小知觉、深度与距离知觉、方位知觉与空间定向等。
- 时间知觉,处理事物的延续性和顺序性。是对客观事物和事件的连续性和顺序性的认知。
- 运动知觉,处理物体在空间的位移等。物体的运动特性直接作用于人脑,为人们所认识。
知觉还一种特殊形态叫做错觉。
模式识别
模式:由若干元素或成分按一定关系形成的某种刺激结构。
模式识别:是感觉信息与长时记忆中的有关信息进行比较,再决定它与长时记忆中哪个项目有着最佳匹配的过程。
根据感觉通道的不同,可以分为视觉模式、听觉模式、嗅觉模式、味觉模式和触觉模式。通常研究的是视觉、听觉模式。
模式识别理论的组成:感知,分析,比较,决策。早期理论有:模板匹配理论、原型理论、特征分析理论。近期有视觉计算理论、特征整合理论、成分识别理论。
2.3 注意⚓
注意(attention)是人的心理活动对一定对象的指向和集中。功能 包括:信号检测,选择性注意,分配性注意。特征 包括:注意的选择性,注意的持续性,注意的转移。
注意的选择性:
- 指向性:是指人在每一瞬间,其心理活动或意识选择了某个对象,而忽略了另一些对象。
- 集中性:当心理活动或意识指向某个对象的时候,它们会在这个对象上集中起来。
注意的理论模型:
- 过滤器模型。该模型认为,来自外界的信息是大量的,而人的神经系统高级中枢的加工能力是有限的,于是出现瓶颈。为避免系统超载,需要某种过滤器进行调节,选择其中较少的信息,使其进入高级分析阶段,这类信息受到进一步加工而被识别和存储,其他信息则不让通过。
- 衰减器模型,又称中期选择模型。认为高级分析水平容量有限,必须由过滤器加以调节,不过,这种过滤器不是只允许一个通道(追随耳)的信息通过,而是既允许追随耳的信息通过,也允许非追随耳的信息通过,只是非追随耳的信号受到衰减,强度减弱了,但其中一些信息仍然可得到高级加工。
- 反应选择模型。认为几个输入通道的信息均可进入高级分析水平,得到全部的知觉加工;注意不在于选择知觉刺激,而在于选择对刺激的反应,即输出是按其重要性安排的,这种安排依赖于长期的倾向、上下文和指导语。
知觉选择模型(过滤器/衰减器)和反应选择模型的比较,不同点在于对注意选择机制(即过滤器)在信息加工系统中所处的位置不同。
控制性加工与自动加工:
- 控制性加工:受到人的意识控制,需要注意的加工。其容量有限,可灵活用于变化着的环境。
- 自动加工:不受人所控制的加工,无需应用注意,没有一定的容量限制,而且一旦形成就很难改变。
涉及自动加工的注意理论——特征整合理论。特征整合论的核心,是将客体的知觉过程分成两个阶段,出发点是知觉的特征分析。
-
早期的前注意阶段
该阶段特点:(1)特征登记或编码是自动的。(2)分散注意是相对低层次加工,粗略地等同于自动加工。这种加工几乎不需要努力,以至于我们甚至意识不到它的发生。
-
特征整合阶段
以集中注意方式,将各个分别被独立编码的特征,按其在定位地图中的所在位置结合起来,形成对客体的综合表征。错觉性结合是指特征的不恰当结合。人分心或超负荷时,会出现这种情况。
2.4 记忆⚓
记忆(memory)是在头脑中积累和保存个体经验的心理过程。使用信息加工的术语:记忆是人脑对外界输入的信息进行编码、存储和提取的过程。
记忆的生理基础:
- 皮层运动区:程序性记忆;
- 额叶:语义与情节记忆;
- 前额叶:短时记忆;
- 颞叶:颞叶参与长时语义和情节记忆的整合与存储,对短时记忆中的新材料加工也起作用;
- 杏仁核:新情绪记忆信息的整合;
- 海马:整合新的长时语义和情节记忆;
- 小脑—程序性记忆。
记忆的三个子系统:
- 感觉/瞬时记忆(SM, sensory memory):一种信息存储时间以毫秒或秒计的记忆。感觉记忆是记忆系统的开始阶段,它是一种原始的感觉形式,是记忆系统在对外界信息进行进一步加工之前的暂时登记。图像记忆是感觉记忆的主要编码形式。感觉记忆包含了视觉的感觉记忆(图像记忆)和听觉的感觉记忆(声像记忆)。特点是:存储时间非常短,记忆容量非常大,记忆过程是无意识的自动化的,人无法控制。
- 短时记忆(STM, short-term memory):一种信息存储时间为1分钟以内(约15-30秒)的记忆,又称为电话号码式记忆。是个体对刺激信息进行加工、编码、短暂保持和容量有限的记忆。
- 长时记忆(LTM, long-term memory):信息保持存储时间在一分钟以上的记忆,可以是数年甚至终生难忘。量的变化:存储信息的数量随时间的推移而逐渐下降。质的变化:受知识和经验差异的影响,人们存储的经验可能会发生不同程度的变化:会发生记忆的扭曲、记忆的错觉。
人工神经网络中的记忆机制:
- 普通的循环神经网络 RNN:存储上一时刻隐含层的输出,作为当前时刻的内部反馈输入。
- 长短时记忆网络 LSTM:一种引入门控机制的循环神经网络。
2.5 视觉感知和认知计算⚓
2.5.1 视觉感知计算模型⚓
生物视觉感知模型
通过对猴子视觉生理的研究发现,形状、颜色、运动和深度等视觉信息,在从视网膜、LGN(膝状体核)、V1 区到 V2、V4 区的视觉通道中,进行既平行又分级串行的信息处理(对比 CNN 结构)。基于生物视觉感知系统的这种生理结构,研究者们提出了各种有效的计算模型。
视网膜细胞响应模型:视觉系统内任何一个神经细胞,都有各自的视网膜代表区,即同心圆感受野。常见的有 on-中心型,off-中心型两种。
简单感受野模型:当具有一定朝向和宽度的条形刺激出现在简单细胞感受野内某个特定位置时,细胞的响应最强;当刺激偏离该朝向,或位置时,响应急剧减低,甚至消失。即:简单细胞对视觉刺激模式,呈现方向、位置和空间频率选择。
图像感知计算模型
SIFT 特征算子。用两个高斯函数的差(DoG)表示。SIFT 特征提取算法。
Gabor 滤波器。用 Gabor 函数来模拟简单细胞的感受野结构,定义为高斯包络函数和正弦谐波函数的乘积。
2.5.2 模拟视觉注意的感知计算⚓
图像显著性检测。显著区域检测与人类视觉注意机制密切相关。一种通用的显著区域检测的方法——基于注意窗估计的显著性检测方法。
注意机制的神经网络模型。注意机制可以在深度神经网络中实现:attention map。有硬注意和软注意两种。
2.5.3 视觉认知计算⚓
基于 CNN 特征的图像分类。
复制和近似图像检索。
2.5.4 媒体认知相互作用⚓
人类的发展与文明的进步,主要表现在人类不断:认知——发明发现(创造新机器新媒体)——提升认知——再发明发现,循环往复,进而不断提高对自身和客观世界认识的过程。
以人类认知机理为基础的新媒体创新,可以为提高人类认知客观世界的能力提供有效的手段和工具,以此相互促进,循环往复。
视觉暂留效应:物体在快速运动时,当人眼所看到的影像消失后,人眼仍能继续保留其影像,约 0.1-0.4s 左右的图像。原因是由视神经的反应速度造成的,其时值约是十六分之一秒,对于不同频率的光有不同的暂留时间。
立体视觉与立体显示。基于视差原理。
虚拟现实与增强现实技术。