Here I’ll post blogs on various topics, which will cover machine learning, neural network, computer vision, cloud gaming, graphics, etc. There might also interesting events in my life or society.


  • maskrcnn-benchmark -- 踩坑实况

    由于需要针对mask-rcnn进行使用学习,记录一下配置环境上遇到的各种问题及其解决方案,本文使用的GitHub仓库源自maskrcnn-benchmark。硬件软件环境:

    • Windows10
    • RTX 3060
    • python 3.7
  • Mask R-CNN -- 阅读笔记

    本文 Mask R-CNN 是图像分割领域中的一篇力作,本文提出了一种逻辑上简单灵活且易于泛化的实例分割的框架。从实现上,Mask R-CNN是基于Faster R-CNN的拓展,增加了一个用于预测物体mask的分支。本方法在效率上没有做提升,但可以达到5fps的帧率,该方法的可贵之处在于其良好的分割效果之外,能够相对简单地拓展到其他任务重,例如预测人体的姿态等。本文在当时能够发挥出优于当时大多数SOTA方法,如今依然是一种非常有效的图像分割的方法。

  • AANet -- 阅读笔记

    本文全称 “AANet: Adaptive Aggregation Network for Efficient Stereo Matching”,CVPR2020 文章,针对双目匹配任务的论文。目前最好的立体匹配模型基本都在用3D卷积,计算复杂度高且占用大量存储空间,本文目的是完全替代3D卷积。

  • FADNet -- 阅读笔记

    本文全称 “FADNet: A Fast and Accurate Network for Disparity Estimation”,采用神经网络的方法进行视差计算,本文提出了一个快速且准确的视差估计深度网络。本文提出一种兼顾效率和精度的视差估计模型叫 FADNet,通过结合2D卷积和相关层操作维持了较好的计算速度,利用残差结构和多尺度特征融合降低了训练的难度以提升模型精度,用更少的计算资源获得数十倍的速度提升。

  • Segment-Based Disparity Refinement (SDR) -- 阅读笔记

    本文全称 “Segment-Based Disparity Refinement With Occlusion Handling for Stereo Matching”,是在立体视觉匹配问题中提出的一种直接对于 winner-take-all (WTA) 方法进行优化的的算法。本文采用已有的基于分割的算法,将图像分割成小块的超像素,并对于每个超像素分配一个视差平面,本文设计了一个两层的优化算法那来优化视差平面。本文的优化方法是一个纯粹的视差细化方法,其过程不需要立体像对之间的相关性信息。该文提出“匹配成本计算+视差细化”的框架是在较低计算成本下生成高精度视差图的一种可能解决方案。

  • Raft Stereo -- 论文解读

    本文全称 “RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching”,是基于RAFT算法的又一篇立体匹配算法,在光流和立体匹配任务有着广泛的应用。相比于原生的RAFT算法,本文更关注 $X$ 轴方向的视差信息,即考虑输入的匹配图像是经过极线校正的,在网络的迭代优化过程中,使用不同尺度的特征图来增大网络的感受野,增加对大面积弱纹理区域的适应性。本文的立体匹配算法在现有的一些数据集上都取得了较好的效果,截止2021年11月,在Middlebury数据集的bad2.0指标上达到top级别。

  • PatchMatch Stereo -- 论文解读

    本文全称《PatchMatch Stereo - Stereo Matching with Slanted Support Windows》,在BMVC2011发表的一篇在立体匹配问题中非常经典的方法,论文链接在此。多视图立体技术是从多个视角的彩色影像中利用立体匹配的算法恢复立体结构的三维视觉技术,Patch Match Stereo 以下简称PMS,是立体视觉中的经典之作,提出了基于视差平面概念的方法,其核心的方法在于针对各个像素预测不同的视差平面从而优化局部匹配窗的效果。

  • Noss Rob -- 论文解读

    本文全称《Superpixel alpha-expansion and normal adjustment for stereo matching》,在 Middlebury 视差数据集的评测网站中被命名为 NOSS ROB。本文基于超像素分割和图割算法提出了一套连续的双目视差预测方法,作者使用了一个3D的切向平面来参数化视差,并提出了两种算法来优化 Markov Random Field (MRF),分别是 superpixel $\alpha$-expansion 和 normal adjustment。本文方法在 Middlebury 3.0 评估中取得了很好的效果。

  • Side Window Filtering -- 论文解读

    本文主要针对图像滤波中的边缘模糊问题作出改进,在2019年被CVPR Oral接收,本文并不是一篇深度学习的文章,论文链接。图像处理中局部窗口的使用是很常见的,大多都是将窗口的中心设定为待处理像素的位置,而本文反其道行之,先分析了这种做法并不一定适用所有场合,并提出了自己的一套滤波窗口算法。