本文 Mask R-CNN 是图像分割领域中的一篇力作，本文提出了一种逻辑上简单灵活且易于泛化的实例分割的框架。从实现上，Mask R-CNN是基于Faster R-CNN的拓展，增加了一个用于预测物体mask的分支。本方法在效率上没有做提升，但可以达到5fps的帧率，该方法的可贵之处在于其良好的分割效果之外，能够相对简单地拓展到其他任务重，例如预测人体的姿态等。本文在当时能够发挥出优于当时大多数SOTA方法，如今依然是一种非常有效的图像分割的方法。

Introduction

Mask R-CNN是一篇结合了以往众多优秀工作的方法，其主要目的是完成图像分割中的实例分割这一任务，实时上基于其网络结构，它也能用于进行目标检测和语义分割。提到Mask R-CNN就不得不提到三个网络结构：

Faster RCNN
ResNet-FPN
ResNet-FPN + Fast RCNN

本质上Mask R-CNN是多个网络结构的结合即 ResNet-FPN + Fast RCNN + Mask。

Faster RCNN

Faster R-CNN是两阶段的目标检测算法，包括第一阶段的Region proposal和阶段二的bounding box回归和分类。

Faster RCNN使用CNN提取图像特征，使用RPN即region proposal network来提取出感兴趣区域即ROI，然后使用ROI pooling对这些ROI全部变成固定尺寸，再喂给全连接层进行Bounding box回归和分类预测。

ResNet-FPN

多尺度的检测在目标检测中变得越来越重要，对于小目标的检测尤其如此，包括yolo v3等最新的方法都开始加入多尺度的方法，那么在此引入Feature Pyramid Network即FPN网络，一种能够进行多尺度检测的方法。

FPN结构自下而上，自上而下和横向链接三个部分，这种结构能够将各个层级的特征进行融合，使其同时具有强语义信息和强空间信息。事实上FPN是一种通用架构,可以结合任意骨架网络使用,可以从网络概念图中看出，左侧是一个特征提取网络，可以使用包括VGG，ResNet等backbone网络，Mask R-CNN一文中使用的是ResNNet-FPN的网络结构

对于自下而上的路径，是特征提取的过程，和传统的VGG等卷积结构完成的工作没有区别，具体就是将ResNet作为骨架网络，根据feature map的大小分为5个阶段。自上而下是个上采样的过程，从最高层开始进行上采样，这里直接使用了最近邻上采样，而不是使用反卷积操作，一方面是操作简单且可减少训练参数。横向连接是将在自下而上的过程中生成的feature map和上采样结果中相同大小的feature map进行融合，当然这里的融合需要一定的操作，对下采样的结果进行 conv 1*1操作（降低通道数），不经过激活函数，将输出通道全部设置为相同的256通道，然后和上采样的feature map进行加和操作，在融合之后使用3*3的卷积核对特征进行处理。

ResNet-FPN + Fast R-CNN 将ResNet-FPN和Fast RCNN进行结合就是Faster R-CNN了，FPN说白了是用于产生多尺度的特征金字塔的，这个特征金字塔在经过RPN之后会产生很多的region proposal，但这些region proposal是从不同的金字塔层中诞生的，那么就需要在特征层中根据region proposal切出ROI进行后续的分类和回归，那么我们选择那个feature map进行切割最合适呢，通过如下公式决定宽w和高h的ROI从第几个feature map来切：

$k = floor(k_0 + \log_2(\sqrt{wh}/224))$

这里的224表示用于预训练的ImageNet图片的大小，$k_0$表示面积为$w\times h = 224\times 224$的ROI所应该在的层级，在本文中$k_0 = 4$，如果ROI的尺度比224小，那就要从更高分辨率的特征层比如$P_3$中去切割，该做法很合理，对于一个较小的ROI而言，低分辨率的特征层上的对应区域会很小导致信息过少，对于小目标的检测会更加有利。

Method

那么再进一步，将ResNet-FPN，Fast R-CNN和mask相结合就能得到Mask R-CNN，它的结构经过上述拆解就比较简单了，在ROI pooling添加卷积层进行mask预测的任务。总结一下Mask R-CNN的网络结构就是如下几点：

骨干网络ResNet-FPN，用于特征提取，ResNet可以替换为别的骨干网络 ResNet-50，ResNet-101，ResNeXt-50，ResNeXt-101等等
头部网络，包括边界框识别（分类和回归）+mask预测，头部结构如下所示

ROI Align

本文有一个很重要的改进，称之为ROIAlign，在Faster RCNN有一个问题是特征图和原始图像是不对准的，会影响检测精度，而本文提出了ROIAlign的方法代替了ROIpooling来保留大致的空间位置。

那么如何理解ROIpooling呢，举例来讲假设我们有一个$8\times 8$大小的特征图，我们要在这个feature map上得到ROI，并进行ROIpooling到$2\times2$大小的输出。假设ROI的bounding box为$[x_1, y_1, x_2, y_2] = [0, 3, 7, 8]$。将它划分为$2\times 2$的网格，由于ROI的长宽除以2无法整除，因此会出现每个格子大小不一样的情况，那么进行max pooling（在每个划分区域内取最大值）后就能得到$2\times 2$的最终输出。

那么ROI Align解决的是个什么问题呢？在Faster R-CNN中，有过两次整数化的过程：

region proposal的xywh通常是小数，但是为了方便操作会把它整数化
将整数化后的边界区域平均分割成 $k\times k$个单元，对每一个单元的边界进行整数化

那么经过上述两次整数化，此时的候选框已经和最开始回归出来的位置有一定的偏差，这个偏差会影响检测或者分割的准确度（本文中描述为不匹配问题），ROI Align取消了整数化的操作，保留了小数，使用了双线性插值的方法获得坐标为浮点数的像素点上的图像数值，但在实际操作的时候ROI Align是经过重新设计的。举例说明ROI Align的操作，如果虚线部分表示feature map，实线表示ROI，这里将ROI切分为$2\times 2$的单元格，每个单元格采样点数为4，那么先将每个小单元格切分成4个小方格，每个小方格中心就是采样点，对该采样点像素进行双线性插值就能得到该点的值了，然后对每个单元格内的四个采样点进行maxpooling，就能得到ROIAlign的最终结果。

Loss

Mask R-CNN是一个多任务问题，其损失函数定义为$L = L_{cls} + L_{box} + L_{mask}$，前两者和faster rcnn的定义没有区别，需要具体说明的是mask的损失定义，假设我们有K个类别，那么mask分割分支的输出维度是$Kmm$，对于$m*m$中的每个点，都会输出K个二值的Mask（每个类别分别使用sigmoid输出），计算loss的时候并不是每个类别的sigmoid输出都计算二值交叉熵损失，而是该像素属于哪个类，哪个类的sigmoid输出才计算损失，测试的时候通过classification分支预测的类别来选择相应的mask预测，这样mask的预测就和分类预测彻底解耦了。

Ref

本文参考了知乎博文讲解：令人拍案称奇的Mask RCNN。