Welcome
Current Institute
Sept 4, 2020 - Mar 1, 2023 (projected)
Enrolled in Shanghai Jiao Tong University, School of Software Engineering, as a master student. Currently, I work in Digital Art Laboratory as a researcher. Worked on fields of facial expression, image stylization and cloud gaming.
Latest Posts
maskrcnn-benchmark -- 踩坑实况
由于需要针对mask-rcnn进行使用学习,记录一下配置环境上遇到的各种问题及其解决方案,本文使用的GitHub仓库源自maskrcnn-benchmark。硬件软件环境:
- Windows10
- RTX 3060
- python 3.7
Mask R-CNN -- 阅读笔记
本文 Mask R-CNN 是图像分割领域中的一篇力作,本文提出了一种逻辑上简单灵活且易于泛化的实例分割的框架。从实现上,Mask R-CNN是基于Faster R-CNN的拓展,增加了一个用于预测物体mask的分支。本方法在效率上没有做提升,但可以达到5fps的帧率,该方法的可贵之处在于其良好的分割效果之外,能够相对简单地拓展到其他任务重,例如预测人体的姿态等。本文在当时能够发挥出优于当时大多数SOTA方法,如今依然是一种非常有效的图像分割的方法。
AANet -- 阅读笔记
本文全称 “AANet: Adaptive Aggregation Network for Efficient Stereo Matching”,CVPR2020 文章,针对双目匹配任务的论文。目前最好的立体匹配模型基本都在用3D卷积,计算复杂度高且占用大量存储空间,本文目的是完全替代3D卷积。
FADNet -- 阅读笔记
本文全称 “FADNet: A Fast and Accurate Network for Disparity Estimation”,采用神经网络的方法进行视差计算,本文提出了一个快速且准确的视差估计深度网络。本文提出一种兼顾效率和精度的视差估计模型叫 FADNet,通过结合2D卷积和相关层操作维持了较好的计算速度,利用残差结构和多尺度特征融合降低了训练的难度以提升模型精度,用更少的计算资源获得数十倍的速度提升。
Segment-Based Disparity Refinement (SDR) -- 阅读笔记
本文全称 “Segment-Based Disparity Refinement With Occlusion Handling for Stereo Matching”,是在立体视觉匹配问题中提出的一种直接对于 winner-take-all (WTA) 方法进行优化的的算法。本文采用已有的基于分割的算法,将图像分割成小块的超像素,并对于每个超像素分配一个视差平面,本文设计了一个两层的优化算法那来优化视差平面。本文的优化方法是一个纯粹的视差细化方法,其过程不需要立体像对之间的相关性信息。该文提出“匹配成本计算+视差细化”的框架是在较低计算成本下生成高精度视差图的一种可能解决方案。