2 图像信息与视觉感知¶

2.1 彩色视觉和色度图¶

眼睛的形状近似球体，直径约 20mm。

晶状体聚焦中心至视网膜距离的变化范围 14-17mm。

视网膜分布在眼球后部的内壁。来自眼睛的外光线，在视网膜上成像。视网膜表面分布的光接收器产生视觉图像。

人眼视觉的暂留特性：视网膜上的物象不会立即消失，会滞留 0.1-0.4s 左右。

七色光由可见范围的电磁波谱的波长组成，彩色光覆盖的电磁波谱大约从 400-700nm。

人眼有两类光接收器：锥状体和杆状体，锥状体对颜色灵敏度高。人眼的锥体细胞有3种，分别感受红光、绿光与蓝光，称为感红、感绿、感蓝锥体细胞。通过红、绿、蓝三种光线不同比例的混合，可以获得任何一种颜色的光线，因此将红、绿、蓝这三种光称为原色。

光的三种基色：

红：R, red, 700nm
绿：G, green, 546.1nm
蓝：B, blue, 435.8nm

三种补色：

青/蓝绿：C, cyan, G+B
品红：M, magenta, R+B
黄：Y, yellow, R+G

CIE-RGB 色彩空间：

\(C=rR+gG+bB\) ，三基色混合而成，比例系数 \(r+g+b=1\) ，色系数 \((r,g,b)\) 表示色度。

色度图上横纵坐标分别为 r, g ，而 b 由约束条件求出。外切三角形横跨二、四象限，色系数可能为负数。色系数为负数的意义是，将某一种原色与待匹配单色光混合，与另外两个原色的混合达到匹配 \(bB+C=rR+gG\) .

CIE-XYZ 色彩空间：

\(C=xX+yY+zZ\) ，外切三角形转换到第一象限，颜色由三刺激值 X, Y, Z 混合，混合系数 \((x, y, z)\) 为正，避免了负系数问题。色度图上横纵坐标分别为 x, y。

三色刺激值 X, Y, Z 与 R, G, B 的换算关系：

\[ \begin{gather*} \begin{pmatrix} X \\ Y \\ Z \end{pmatrix} = \begin{pmatrix} 0.4902 & 0.3099 & 0.1999 \\ 0.1770 & 0.8123 & 0.0107 \\ 0.0000 & 0.0101 & 0.9899 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix} \\ \begin{pmatrix} R \\ G \\ B \end{pmatrix} = \begin{pmatrix} 2.3635 & -0.8958 & -0.4677 \\ -0.5151 & 1.4264 & 0.0887 \\ 0.0052 & -0.0145 & 1.0093 \end{pmatrix} \begin{pmatrix} X \\ Y \\ Z \end{pmatrix} \end{gather*} \]

在色度图中：

色度图中，马蹄形区域的边界和内部代表了所有可见光的色度值，中央的一点 \(W(0.333,0.333)\) 表示标准白光。
每点都对应一种颜色。
边界上的点代表纯彩色，中心点 \(W\) 处纯度为零。
连接任意两端点的直线上的各点表示将这两端点所代表的彩色相加可组成的一种新彩色。
过 \(W\) 点直线端点的两彩色为互补色。
三顶点形成的三角形区域，表示三顶点颜色可组成的所有可能的颜色组合。

描述彩色特性的三种（基本）感知量：

亮度（辉度）：与光的强度直接相关，与物体的反射率成正比，无彩色时只有辉度量。对于彩色光，颜色中加入白色越多越明亮。
色度：
1. 色调：与光谱中光的波长相联系。表示光的颜色，决定于混合光谱中主要光的波长，由强度最大的彩色成分决定。
2. 饱和度：与一定色调光的纯度有关。表示彩色光的鲜艳度，取决于彩色中的白色光含量。数值为介于0~100%的百分比。随着白光含量的增加，饱和度逐渐减少。

补充：

亮度，表示颜色的明暗程度，即视觉感知上的光线强弱。主要由光的强弱决定，不受颜色种类直接影响，只与颜色发射或反射的能量有关。举例：亮黄色为高亮度，深棕色、深蓝色为低亮度。
色调，是人眼对不同波长光的感觉差异，决定了颜色的“类别”或“名字”，如红色、绿色、蓝色等。主要取决于光波波长或光谱组成。
饱和度，表示颜色的鲜艳程度或纯净程度。饱和度越高，颜色越纯净鲜艳；饱和度越低，颜色越接近灰色或白色。取决于主波长和其他波长光的比例关系。颜色越单一（越接近单色光），饱和度越高；颜色混入的白光（或其他波长成分）越多，饱和度越低。举例：鲜艳的正红色饱和度高，加入白色或灰色后成为粉色或灰红色，饱和度降低。

色调和饱和度合称为“色度”，彩色可用亮度和色度共同表示。

2.2 彩色模型¶

2.2.1 面向硬件设备的彩色模型¶

图像处理中，最通用的模型是 RGB 模型，采用加法混色法，描述各种“光”通过何种比例来产生颜色。位于系统中的每种颜色都由单个点表示，坐标系统是一个立方体，r,g,b 三个坐标轴分别对应右手坐标系中的 x,y,z 轴。

CMY 模型：CMY 印刷过程中使用减法混色法。 \(C=1-R,M=1-G,Y=1-B\) （RGB 归一化后）。

RGBA 色彩空间：在 RGB 的基础上增加了不透明度 Alpha 通道，0% 表示像素完全透明（看不见），100% 表示像素完全不透明，中间使得像素可以透过背景显示出来。

CMYK 模型：一种减法颜色模型，最佳的打印颜色模式。通过不同强度的青（Cyan）、品红（Magenta）、黄（Yellow）和黑（Key/Black）组合来表示所有颜色。其中青、品红和黄三个分量（颜料的三原色）可张成整个色彩空间，而出于印刷行业的需要又引入了黑色。

2.2.2 面向视觉感知的彩色模型¶

HSI 模型：用户直观的色彩模型，H（色调 hue），S（饱和度 saturation），I（密度或明度 V，intensity，对应图像亮度）。

H 和 S 分量与人感受彩色的方式紧密相连（合称色度），I 分量与图象的彩色信息无关。

从 RGB 转换到 HSI：

\[ \begin{align*} I &= \frac{1}{3} (R + G + B) \\ S &= 1 - \frac{3}{R + G + B} \min(R, G, B) \\ H &= \arccos \left( \frac{(R - G + R - B)/2}{\sqrt{(R - G)^2 + (R - B)(G - B)}} \right) \end{align*} \]

从 HSI 转换到 RGB：

当 \(H\in[0^\circ,120^\circ]\) ：

\[ \begin{align*} B &= I(1 - S) \\ R &= I \left[ 1 + \frac{S \cos H}{\cos(60^\circ - H)} \right] \\ G &= 3I - (B + R) \end{align*} \]

当 \(H\in[120^\circ,240^\circ]\) ：

\[ \begin{align*} R &= I(1 - S) \\ G &= I \left[ 1 + \frac{S \cos(H-120^\circ)}{\cos(180^\circ - H)} \right] \\ B &= 3I - (R + G) \end{align*} \]

当 \(H\in[240^\circ,360^\circ]\) ：

\[ \begin{align*} G &= I(1 - S) \\ B &= I \left[ 1 + \frac{S \cos(H - 240^\circ)}{\cos(300^\circ - H)} \right] \\ R &= 3I - (B + G) \end{align*} \]

注意，这里的 R, G, B 分量取值范围为常见的 [0, 1]，是对常见的 256 灰度级做归一化（除以255），且相互独立，与前述色彩空间中色度系数 r, g, b 不同(因为它们具有相加为1的约束)。求解 H 和 S 时，只关心各分量之间的比例，可以将 RGB 归一化到 rgb 空间， \(r=R/(R+G+B)\) 后得到颜色三角形，即为立方体三个相邻顶点连接的三角形，三角形上面的点满足 \(r+g+b=1\) .

Lab 模型，与 RGB 模型相比的优点：

色彩空间更大，可以表示自然界所有颜色。
更接近人类视觉，致力于感知均匀性。
弥补了 RGB 模式对设备色彩特性的依赖。L 分量匹配人类的亮度感知，调整亮度对比 a,b 分量用于进行精确的颜色平衡。
维度 L 表示亮度，a 的正数代表红色，负端代表绿色；b 的正数代表黄色，负端代表蓝色。

彩色模型	定义	特征	应用领域
RGB 模型	描述三原色通道的颜色值，模仿生物视网膜的视锥细胞产生	由三基色组成的 RGB 彩色模型与人眼功能很好地匹配	数字图像的存储与显示，包括如彩色阴极射线管在内的显示器系统
XYZ 模型	三个假想的原色 XYZ，分别匹配等能光谱的三刺激值	包含了人眼所能辨别的全部颜色	给定量的确定颜色创造了条件
HSI 模型	采用色调，色饱和度和亮度描述色彩	比 RGB 模型更符合人的视觉特性，便于人进行色彩判断	适用于彩色特性检测与分析，且可以简化图像分析和处理的工作量
Lab 模型	采用亮度与两颜色通道描述色彩	具有比人类视觉更加宽广的色域	用于接近人类视觉，致力于感知均匀性

2.2.3 Bayer 模式¶

CCD：排布了感光器件的半导体器件。同时进行亮度和色度的转换，图像彩色还原能力较差。

3CCD：使用 3 片 CCD 分别接收三基色彩色，还原能力强，亮度更好，清晰度更好，价格昂贵。

Bayer 模式：原始图片格式为 .raw ，每像素只感知一通道的信息，RGGB 模式，通过插值得到每个像素的 RGB 值。

插值红蓝算法：双线性插值

G 格点的 R, B 取邻域的 2 个 R, B 的均值。
R 格点的 B 取邻域 4 个 B 的均值。
B 格点的 R 取邻域 4 个 R 的均值。

插值绿算法：线性插值补偿，R,B 格点的 G 值，取梯度较小方向两个 G 的平均。

双线性插值法可能在亮度突变处产生渗色噪声，丢失边缘色彩信息。

Note

单CCD彩色成像常用拜耳（Bayer）滤波阵列，其中包含多种模式，如 BGGR（B 在左上角）、RGGB（R 在左上角）、GRBG（G 在行首）、GBRG 等。

RGB-IR 技术：一部分 G 替换为红外(IR)，即 R, G, B, IR 四种数量相同。

2.3 摄影和成像¶

根据物体不同，成像方法各有特点：反射特性 CCD 成像、深度信息成像、高速高动态成像。

光通量（luminous flux）：单位时间通过某一面积的光辐射能，单位流明 \(\text{lm}\) .

光强（luminous intensity）：点光源 Q 沿方向 r 的发光强度 I，定义为沿此方向上单位立体角内发出的光通量 \(I=\dfrac{\mathrm{d}\varPhi}{\mathrm{d}\varOmega}\) ，单位坎德拉 \(\text{cd}=\text{lm/sr}\) .

亮度（brightness）：表示发光面明亮程度，指发光表面在指定方向的发光强度与垂直在指定方向的发光面的面积之比 \(B=\dfrac{\mathrm{d}\varPhi}{\mathrm{d}\varOmega \mathrm{d}S \cos\theta}\) ，单位尼特 \(\text{nit}=\text{cd/m}^2\) .

照度（illuminance）：一个被光线照射的物体表面上的照度，定义为照射在单位面积上的光通量 \(E=\dfrac{\mathrm{d}\varPhi}{\mathrm{d}S}\) ，单位勒克斯 \(\text{lx}=\text{lm/m}^2\) .

照度和亮度的区别

照度是光源对物体辐射的一种度量，照射在单位面积上的光通量；亮度是观察者对所看到的、物体表面光强的一种度量。

2.4 图像采样与量化¶

从实际场景中获取的图像，需要在空间和灰度上离散化后，获得数字图像，才能由计算机进行处理。

空间坐标的离散化称为取样→数字化坐标值。灰度的离散化则称为量化→数字化幅度值。

均匀取样和量化¶

对于 \(M\times N\) ，灰度级为 \(L=2^k\) 的数字图像，出于处理、存储等硬件考虑，灰度级取值是2的整数次幂。灰度图片的比特数为 \(MNk\) ，彩色图像比特数为 \(3MNk\) .

非均匀取样和量化¶

非均匀取样：在比较尖锐的灰度过渡区可采用较密集的采样，在较平滑的区域进行较稀的采样。缺点是需要确定区域的边缘。

非均匀量化：量化时非均匀地分配灰度级。方法：计算所有灰度值出现的频率；若某个范围的灰度值出现频繁，量化灰度在此范围较密集，其他范围较稀疏。

空间分辨率：空间分辨率是指图像中可分辨的最小细节。常见的 1080×720, 4K, 8K 等。空间分辨率不仅与像素当量有关，还受镜头光学性能、图像采样方式、系统模糊、噪声水平等多个因素的影响。

灰度级分辨率：在灰度级别中可分辨的最小变化。黑白只有 2 个灰度级，0 为黑 1 为白。出于硬件考虑，通常灰度级数为 2 的整数次幂，大多数场合取 8bit 表示灰度级，宽动态 10、12bit。

像素当量：图像中一个像素点代表的实际物理尺寸。

补充¶

色彩空间与彩色模型的区别：

(1) 色彩空间是一种特定的颜色表示标准，定义了具体的颜色坐标系统，描述了如何在特定的参考标准（如人眼视觉、显示设备特性等）下精确表达颜色。每个色彩空间通常都有明确的坐标、基色（原色）、白点以及色域范围。

常见色彩空间包括：CIE RGB, CIR XYZ, CIE Lab, Adobe RGB, sRGB 等。

(2) 彩色模型是一种抽象的数学模型，用于定义如何用数值组合生成颜色。彩色模型通常定义了一种颜色如何由特定的分量（如 RGB 三个分量，CMY 三个分量等）组合而成。

常见的彩色模型包括：RGB 模型，CMY/CMYK 模型，HSV/HSL 模型。

对比：

维度	色彩空间	彩色模型
概念	是特定的实现标准，具体而明确。	是抽象的数学表示方式，不涉及实际设备。
用途	描述具体色彩的表现方式，有明确的定义标准和参数。	描述颜色构成方法，定义如何将不同分量组合成颜色。
是否具体	具体、有严格定义（如坐标范围、基准色、色域）。	抽象，不依赖具体的设备或标准定义。
是否与设备相关	可能与设备相关（如sRGB色彩空间与显示器相关）。	抽象，与设备无关。

举例说明：

RGB 只是告诉我们颜色可由红、绿、蓝三个分量混合得到，但并未规定具体的红、绿、蓝的颜色究竟指哪三个具体颜色（色坐标）。不同设备的“红色”可能并不相同。因此，单纯的 RGB 模型无法严格定义颜色的绝对含义。

对于具体的色彩空间 sRGB，sRGB 不仅采用 RGB 彩色模型，还明确规定了 R, G, B 的具体波长和坐标，定义了白点和色域，因此 sRGB 中的每个 RGB 数值都能准确地映射到确定的颜色。

RGB 三通道图像转换为灰度图像

OpenCV 使用的方法：加权平均 \(0.299R+0.587G+0.114B\) . 人眼对绿色最敏感（权重最大），其次是红色、蓝色。

RGB 模型无法表示自然界中所有颜色。RGB 模型基于人眼中三种视锥细胞（对红、绿、蓝光敏感）的反应来构建，是一种感知模型（perceptual model），不是自然界中物理颜色的全面表达方式。