目标检测论文解读11——Mask R-CNN

目的

　　让Faster R-CNN能做实例分割的任务。

方法

　　模型的结构图如下。

　　

　　与Faster R-CNN相比，主要有两点变化。

　　(1) 用RoI Align替代RoI Pool。

　　首先回顾一下RoI Pool，流程为：将RPN产生的原图侯选框映射到CNNs输出的feature map上，显然原图比feature map大，所以映射后的像素坐标可能会有小数，这里的做法是用近邻插值法，通俗讲，坐标四舍五入。

　　而这种做法肯定会带来一些空间位置上的小误差，而我们后面的实例分割是逐像素的，接受不了这种误差，因此采用RoI Align，用双线性插值法替代近邻插值法(具体可以参考博客：https://zhuanlan.zhihu.com/p/49832888)

　　(2)添加了一个基于FCN的Mask分支，用来对feature map上的RoI进行实例分割。

　　经过RoI Align得到的feature map，经过几层卷积，最终得到一个m*m的二值特征图，object与background，逐像素分类即可。这里之所以采用FCN，是因为我们最终所做的实例分割，需要保留空间信息；如果最后一层接FC的话得到的就是一维向量。

总结

　　Mask R-CNN的实例分割效果很好，尤其对于那种目标偏小的图片效果也很好，主要是因为他是先通过前面的RoI Align把目标给框出来了，后面实例分割的话是在包含目标的小框中进行的。

　　

　　

原文地址：https://www.cnblogs.com/xin1998/p/11393571.html

时间： 2024-12-07 18:58:29

目标检测论文解读11——Mask R-CNN的相关文章

目标检测论文解读5——YOLO v1

背景之前热门的目标检测方法都是two stage的,即分为region proposal和classification两个阶段,本文是对one stage方法的初次探索. 方法首先看一下模型的网络结构,输入的原图片,经过24个卷积层提取特征,全连接层输出一个7*7*30的tensor,这个tensor里面就包含我们预测的结果了. 那么这个7*7*30的tensor包含哪些信息呢? 首先,7*7可以映射到448*448的原图片中,得到7*7个64*64的grid cell,对于原图中的每一个目

目标检测论文解读12——RetinaNet

引言这篇论文深刻分析了one-stage的模型精度比two-stage更差的原因,并提出Focal Loss提高精度. 思路在论文中,作者指出,造成one-stage模型精度差的原因主要是:正负样本极不平衡.一张图片只有那么几个目标,但是用来分类的Anchor Box却能达到几千个,大量的样本都是负样本,而且大多数负样本都是容易分类的简单样本,这些简单样本的loss虽然低但是凭借着数量众多,能对loss有很大的贡献.因此分类器只用无脑判负也能达到不错的效果. 作者提出的Focal Loss能

目标检测论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

背景用ConvNet方法解决图像分类.检测问题成为热潮,但这些方法都需要先把图片resize到固定的w*h,再丢进网络里,图片经过resize可能会丢失一些信息.论文作者发明了SPP pooling(空间金字塔池化)层,让网络可以接受任意size的输入. 方法首先思考一个问题,为什么ConvNet需要一个固定size的图片作为输入,我们知道,Conv层只需要channel固定(彩色图片3,灰度图1),但可以接受任意w*h的输入,当然输出的w*h也会跟着变化:然而,后面的FC层却需要固定长度的

目标检测论文解读7——YOLO v2

背景 YOLO v1检测效果不好,且无法应用于检测密集物体. 方法 YOLO v2是在YOLO v1的基础上,做出如下改进. (1)引入很火的Batch Normalization,提高mAP和训练速度: (2)加入了Anchor Box机制,每个grid cell5个Anchor Box: (3)自动选择Anchor Box,这是作者所作出的创新,之前Anchor Box都是人为直接规定的,显然不是很合理.作者通过K-means聚类算法,用IoU作为距离度量,生成了Anchor Box的尺度.

目标检测论文（尤其针对一些小目标的可能改进方法）

------------------------------------------------------------------------About Face detection------------------------------------------------------------------------1.Finding Tiny Faces Code:https://github.com/peiyunh/tiny 小目标检测难3大原因:目标本身尺度变化.图像

目标检测论文阅读：Deformable Convolutional Networks

https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformable的卷积如何实现的一步上,在写这篇博客之前,我也查阅了很多其他人的分享或者去github找代码,当然也不敢说完全了解了这种特殊的卷积--仅仅做一点自己的阅读心得与体会吧.这是一篇很有意义的工作,但是和深度学习很多论文一样,在读完之后内心也不免有着种种疑云. Deformable Convoluti

CVPR2019目标检测方法进展综述

CVPR2019目标检测方法进展综述置顶 2019年03月20日 14:14:04 SIGAI_csdn 阅读数 5869更多分类专栏: 机器学习人工智能 AI SIGAI 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/SIGAI_CSDN/article/details/88687747 SIGAI特约作者陈泰红研究方向:机器学习.图像处理目标检测是很多计算机视觉应用的基础,

4. 基于深度学习的目标检测算法的综述(转)

4. 基于深度学习的目标检测算法的综述(转) 原文链接:https://www.cnblogs.com/zyly/p/9250195.html 目录一相关研究 1.选择性搜索(Selective Search) 2.OverFeat 二.基于区域提名的方法 1.R-CNN 2.SPP-Net 3.Fast R-CNN 4.Faster R-CNN 5.R-FCN 三端对端的方法 1.YOLO 2.SSD 四总结在前面几节中,我们已经介绍了什么是目标检测,以及如何进行目标检测,还提及了滑

基于深度学习的目标检测研究进展

前言开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位置.其实刚刚的这个过程就是目标检测,目标检测就是"给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别". 目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0~255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚目标出现在

猜你喜欢

Codeforces Round #276 (Div. 1) A. Bits 贪心

A. Bits Let's denote as the number of bits set ('1' bits) in the binary representation of the non-n ...

#error作用

指令用途 # 空指令,无任何效果 #include 包含一个源代码文件 #define 定义宏 #undef 取消已定义的宏 #if 如果给定条件为真,则编译下面代码 #ifdef 如果宏已经定义, ...

Linux系统中的硬件问题如何排查？(3)

Linux系统中的硬件问题如何排查?(3) 2013-03-27 10:32 核子可乐译 51CTO.com 字号:T | T 在Linux系统中,对于硬件故障问题的排查可能是计算机管理领域最棘手的工 ...

uva 1586 - Molar mass

在想更好的处理方法,现在却只能有这个糟烂的代码了--不好意思 #include<stdio.h> #include<string.h> #include<iostream ...

事件流及事件冒泡机制

事件流 "DOM2级事件"规定的事件流包括三个阶段: 事件捕获阶段(为截获事件提供了机会) 处于目标阶段(实际的目标接收到事件) 事件冒泡阶段(可以在这个阶段对事件做出响应) IE ...

Java并发程序设计(7)线程池之异常终止和正常关闭

1.1. 线程池中的线程的异常终止如果线程池中的线程的任务代码发生异常导致线程终止,线程池会自动创建一个新线程. 对于各种类型的线程池,都是如此.以下代码在单个线程的线程池中抛出一个异常,可以发现后 ...

[NOI2010]能量采集

469. [NOI2010]能量采集 ★★☆ 输入文件:energy2010.in 输出文件:energy2010.out 简单对比时间限制:1 s 内存限制:512 MB [问题描述 ...

lintcode 容易题：Recover Rotated Sorted Array恢复旋转排序数组

题目: 恢复旋转排序数组给定一个旋转排序数组,在原地恢复其排序. 样例 [4, 5, 1, 2, 3] -> [1, 2, 3, 4, 5] 挑战使用O(1)的额外空间和O(n)时间复杂度 ...

最长递增子序列 && 最大子序列、最长递增子序列、最长公共子串、最长公共子序列、字符串编辑距离

http://www.cppblog.com/mysileng/archive/2012/11/30/195841.html 最长递增子序列问题:在一列数中寻找一些数,这些数满足:任意两个数a[i]和 ...

SSH学习之四 OpenSSH安全

OpenSSH是Linux/Unix下一款加密通讯软件,同时也是我们用来远程控制Linux/Unix服务器重要的必装软件.对于各版本的Linux及Unix发行版而言,OpenSSH的配置文件位置都各不 ...

半年时间，能做的有很多!

我叫高凯乐,92年的,今天是来老男孩的第一天,新的开始,从头来过.机会留给有准备的人,因此,我觉得有必要写一篇决心书.制定一个学习大纲,时刻牢记自己来到这里的初衷!留给自己的时间并不多. 工作了为什么 ...

vimrc的完全版本

" -------------------- Copyright Header Begin --------------------------------- " Descript ...

Esxi 5.0安装教程

硬件要求安装ESXi 5.0之前,先要了解一下硬件的配置,确保主机符合ESXi 5.0支持的最低硬件配置:ESXi5.0仅可在安装有64位X86 CPU的服务器上安装和运行:ESXi 5.0要求主机 ...

开启企业混合云之旅

云计算这几年发展极为迅速,前几年是私有云大行其道,近两年公有云也开始火起来.在这种情况下,混合云也被提上日程.那么什么是混合云呢?顾名思义,混合云,就是目标架构中公有云和私有云的结合.由于安全和策略控 ...

使用MATLAB生成模糊控制的离线查询表

1.打开模糊控制工具箱,编辑输入输出变量的隶属度函数和模糊控制规则,如下图所示,导出为fuzzy_control.fis文件. 2.打开Simulink模块,建立下图所示的系统框图,两输入,一输出,处 ...

Webform Session、Cookies传值，跳转页面方式

Session:每个独立的浏览器都会创建一个独立的Session,不是一台电脑一个Session 存放位置:服务器上作用:只要里面有内容,那么这个网站中所有的C#端都能访问到这个变量优点:安全,速 ...

CSS 制作三角形以及 display 、 visibblity属性含义

纯css 制作三角形 .box1{ width:0; height:0; top:-10px; left:15px; position:absolute; border-style:solid; bo ...

等价结点

1. 等价结点在有向图中,若结点u到结点v之间有一条边,则称u为v的一个父节点,v是u的孩子结点,显然在图中结点可具有多个父节点与多个孩子结点.当结点u与结点v的孩子.父亲完全相同时,称u与v为等价 ...

Linux grep,egrep及相应的正则表达式用法详解

linux在进行文本处理过程中的文本搜索工具称为正则表达式.文本搜索工具有grep.egrep.fgrep,egrep为正则表达式的扩展正则表达式,fgrep用于搜索文本字符串,与 grep 和 eg ...

统计建模与R软件第二章习题答案

# 2.1 x <- c(1,2,3);y <- c(4,5,6) e <- c(1,1,1) #1) z <- 2*x+y+e;z #2) crossprod(x,y) #3 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.