Skip to content

第九章 图像3D成像

三维成像方式:

被动式:立体视觉。

主动式:飞行时间法,结构光。

9.1 双目立体视觉

单目相机不能测量深度值而双目可以。单目单次成像无法分辨成的像是远的点还是近的点。

从单幅 RGB 图像中估计深度的方法称作单目深度估计方法,是计算机视觉领域近年来热门的研究课题,但该问题是一个病态问题,其原因在于单张 RGB 图片对应的真实场景可能有无数个,而图像中没有稳定的线索来约束这些可能性。

双目立体视觉三维测量原理,基于视差原理,视差与深度成反比关系。

整体流程:

  1. 立体校正:降低搜索难度。
  2. 立体匹配:左右像素点匹配。
  3. 后处理:去除误匹配像素点。

立体校正

目的是将实际中非共面行对齐的两幅图像校正成共面行对齐,降低对应点搜索难度。

双目立体系统需要标定的参数:

  1. 摄像机的内参矩阵、畸变系数、外参矩阵(通过单目标定获得)。
  2. 左右摄像机之间的立体参数,即相对位姿。双目标定与单目标定最主要的区别,使双目系统还需要标定出左右摄像机之间的相对位姿。

202505301534310

202505301535929


立体匹配

局部算法,在匹配点的一个特定窗口中计算相似度。例如 SSD, SAD, MSE, MAD 等。

举例:SSD 为像素差的平方和,对于左边视角的一个像素窗口,右边视角中与其像素匹配误差最小时即为正确匹配的像素点。

全局算法,通过构建全局能量函数,通过优化方法最小化全局能量以求得稠密的视差图。例如模拟退火,动态规划,最大流,图像分割等。


后处理

解决左右视角不一致,导致遮挡物体无法匹配的问题。具体做法:

根据左右两幅输入图像,分别得到左右两幅视差图后,对于左图中的像素点 p,求得的视差值是 \(d_1\) ,那么 p 在右图中的对应点应该是 \((p-d_1)\) ,其视差值记作 \(d_2\) 。若 \(|d_1-d_2|>\text{threshold}\),则 p 标记为遮挡点,需要用其周围正确的视差值做填充。


算法评估:以真实视差场为参照,对计算得到的视差场进行评估,统计视差场的准确度,以此反映匹配方法的性能。

Middlebury 评价指标:

  1. Bad 0.5,Bad 1.0,Bad 2.0,Bad 4.0:在全分辨率下错误判断阈值为0.5,1.0,2.0和4.0时错误率百分比。
  2. Avgerr:所有像素误差绝对值的均值。
  3. Rms:所有像素误差平方开根后的均值。
  4. A50,A90,A95,A99:表示排序第50%,90%,95%和99%位置处的像素误差值。

立体匹配的困难:

  1. 场景投影到两幅图像中并不总是一致的。摄像机相关:图像噪声,不同增益,不同对比度等。视点相关:透视畸变,遮挡,镜面反射等。
  2. 即使在测试的标准图像中匹配也不是容易的事,例如有重复场景,无纹理区域,遮挡。

9.2 主动三维重建

9.3 大景深三维成像

Comments