本文全称 “RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching”,是基于RAFT算法的又一篇立体匹配算法,在光流和立体匹配任务有着广泛的应用。相比于原生的RAFT算法,本文更关注 $X$ 轴方向的视差信息,即考虑输入的匹配图像是经过极线校正的,在网络的迭代优化过程中,使用不同尺度的特征图来增大网络的感受野,增加对大面积弱纹理区域的适应性。本文的立体匹配算法在现有的一些数据集上都取得了较好的效果,截止2021年11月,在Middlebury数据集的bad2.0指标上达到top级别。


Introduction

本方法由 Priceton University 提出,基于Raft网络的立体匹配工作,主要是修改了RAFT 网络来解决双目立体匹配问题,基本思想是 RAFT 构建的correlation volume 和 convGRU 迭代优化过程。

算法整体流程为:给定一组图像对,双目立体匹配的目的是估计视差场,本文网络结构与RAFT类似,由三部分组成 – 特征提取,相关性金字塔,GRU更新模块。


Method

特征提取

左右目图像分别送入 feature encoder 来提取稠密的 feature map,这些 feature map 会被用来构建相关性代价 correlation volume。feature encoder 网络由残差模块和下采样层组成,最终生成的输入图像分辨率 1/4 或 1/8 的feature map,在feature encoder 中使用instance normalization。

context encoder 网络结构和 feature encoder 一致,将 instance normalization 替换成了 batch normalization,只有左目图像会介入context encoder,生成context feature map 来初始化GRU模块的隐藏状态。

相关性金字塔Correlation Pyramid

相关性代价体的构建:类似于 RAFT 中构建4D correlation volume,本文在双目立体匹配中通过计算两张图像feature map的点积来构建3D correlation volume。

$C_{ijk} = \sum_h f_{ijh}\cdot g_{ikh}, C\in R^{H\times W\times W}$


代价体的理解在多篇文章中都有提到,可以看成两个特征点的特征向量之间的匹配代价,那为什么叫做匹配体 – 相当于图1中的一个feature会和多个图2中的feature进行比较(比如水平方向交叉 $x$ 个像素)。

Correlation Pyramid 构建:和RAFT类似,本文也通过池化层把correlation volume的最后一个维度下采样实现包含不同尺度的 correlation pyramid。因而每个层级的 correlation volume 有不同的感受野,但原图分辨率没有变。

Correlation lookup:因为相关体的感受变了,因此需要一个对应的查找算子。给定当前估计的视差,我们可以在correlation volume 中反向寻找对应像素位置处的代价元素,在每个层级的correlation volume中构建1D的网络来限定查找范围,然后将不同层级的1D网络元素拼接形成一个单独的feature map。


多层级更新模块 Multi-Level Update Operator 在迭代过程中,我们由初始视差会得到一系列的视差图,每次迭代会产生新的视差估计,根据视差估计值去查找correlation volume会得到correlation features,然后将该feature输入到2个卷积层,当前视差估计也会输入到2个卷积层,和context features一起送入GRU。GRU更新隐藏状态,然后我们根据隐藏状态来估计新的视差。


RAFT更新是运行在一个固定的高分辨率尺度上,导致GRU更新过程中卷积核的感受野增长不明显,尤其是对于无纹理区域。因此,本文提出了 multi-resolution update operator。该模块可以同步的更新分辨率为1/8,1/16,1/32的feature map,多个GRU单元之间交叉互联,交错使用隐藏状态,但是查找相关体和更新最终视差始终在最高分辨率那层的GRU单元。

slow-fast GRU:由于特征图大小为1/8处的GRU更新模块需要4倍于1/16特征图的更新模块FLOPs,因而本文采用一种slow-fast的更新策略,高频率更新1/16和1/32特征图的GRUs,低频率更新1/8处的GRUs,在实际测试时能够大幅缩短运行时间。

监督信息 Supervision 本文将视差估计值与真值的L1距离作为loss函数,为权重指数。

$L = \sum_{i=1}^N \gamma^{N-i}\| d_{gt} - d_i \|, \gamma = 0.9$



Conclusion

本文在众多数据集上都取得了很好的效果,ETH-3D、KITTI、Middlebury等,该文方法已开源。