CS231n笔记 Lecture 11, Detection and Segmentation

Other Computer Vision Tasks

  • Semantic Segmentation. Pixel level, don‘t care about instances.
  • Classification + Localization. Single object.
  • Object Detection. Multiple object.
  • Instance Segmentation. Multiple object.

Semantic Segmentation

Simple idea: sliding window, crop across the whole image, and ask what the center pixel is. Expensive.

Fully Convoltional (Naive) : let the network to learning all the pixels at once, keep the spacial size, convolutions at original image resolution, expensive.

Fully convolutional: Design network as a bunch of convolutional layers, with downsampling and upsampling inside the network!

  • Downsampling: Pooling, strided convolution
  • Upsampling: Unpooling (nearest neighbor, bed of nails,  max unpooling in symetrical NN), Transpose convolution (multiply the filter by the pixels on the input, use stride and pad to impose the value on the output).

  

Classification + Localization

Get class scores and box coordinates from the CNN,  treat localization as a regression problem, we have 2 loss!

Aside: Human Pose Estimation, for different position, multitask loss.

Object Detection

Since we have different numbers of objects present, it‘s impossible to use regression. Naively,  sliding window.

R-CNN: Based on tranditional techniques in CV, gives thousands proposal region, much better.

Fast R-CNN: Region crop after ConvNet.

Faster R-CNN: Proposal Region Network.

YOLO/SSD: base grids.

Instance Segmentation

Mask R-CNN

原文地址:https://www.cnblogs.com/ichn/p/8504452.html

时间: 2024-10-29 21:27:06

CS231n笔记 Lecture 11, Detection and Segmentation的相关文章

CS231n笔记 Lecture 9, CNN Architectures

Review: LeNet-5 1998 by LeCun, one conv layer. Case Study: AlexNet [Krizhevsky et al. 2012] It uses a lot of mordern techniques where is still limited to historical issues (seperated feature maps, norm layers). Kind of obsolete, but it is the first C

0801-----C++Primer听课笔记----------C++11新特性 function 和 bind 的简单使用

1.function 和 函数指针 1.1 function有函数指针的功能,但是使用起来明显比函数指针更加灵活和方便. 1.2 函数指针和function的用法实例. 1.2.1 函数指针首先要清楚函数指针的类型,如void (*)(int, char)等,然后声明一函数指针变量直接调用即可. #include <iostream> using namespace std; /* * 函数指针的用法 */ void test(int i,double j){ cout << i

Java笔记(11)

day1 -- day3 XML Java基础加强 day4 -- day7 Servlet编程 day8 -- day10 JSP 综合案例 day11 -- day16 MySQL 数据库 练习SQL语句 JDBC编程 关系化数据模型? 常见关系化数据库有哪些? 收费产品 免费产品 Microsoft SQL Server : 微软公司产品,中等规模数据库 收费产品,运行在windows平台上 --- .net平台+SQLServer进行开发 Oracle :甲骨文公司产品,大型商业数据层,

Oracle基础知识笔记(11) 建表、更新、查询综合练习

有某个学生运动会比赛信息的数据库,保存了如下的表: 运动员sporter(运动员编号sporterid,运动员姓名name,运动员性别sex,所属系号department) 项目item(项目编号itemid,项目名称itemname,项目比赛地点location) 成绩grade(运动员编号id,项目编号itemid,积分mark) 请用SQL语句完成如下功能: 1.  建表,并在相应字段上增加约束: 定义各个表的主键和外键约束: 运动员的姓名和所属系别不能为空: 积分要第为空值,要么为6,4

《浪潮之巅》读书笔记——第11章 摩托罗拉

第11章 摩托罗拉  公司发展    1928创立 原名高尔文制造公司    基因      注重技术和品质    1947 改名摩托罗拉    2011 拆分为摩托罗拉移动和摩托罗拉解决方案两个独立上市公司    2011 Google收购摩托罗拉移动 获得大量专利 扭转了苹果和微软的专利战  产品    最早是做汽车收音机 Motorola是其品牌    给军方做便携式无线通信工具 步话机二战前    模拟无线通信的老大(无线双工霸主)    1946 汽车电话    1958 汽车对讲机 

CSS自学笔记(11):CSS3背景和边框

CSS3 背景 在CSS3中新增了多个关于背景的属性,可以让我们对背景有了更多更好的操作,减少用第三方工具对背景图片进行修改美化. CSS3中主要是通过定义backgrounp中的各个属性来控制背景(高宽,位置,透明度----). 关于背景的部分常用属性有(*为CSS3中新增属性): 值 描述 background-color 规定要使用的背景颜色. background-position 规定背景图像的位置. background-size* 规定背景图片的尺寸. background-rep

CS231n笔记4-Data Preprocessing, Weights Initialization与Batch Normalization

Data Preprocessing, Weights Initialization与Batch Normalization Data Preprocessing Weights Initialization与Batch Normalization 数据预处理Data Preprocessing 权重初始化Weights Initialization 让权重初始化为0 0方差1e-2标准差 0方差1标准差 Xavier Initialization 再改进 批归一化Batch Normaliza

[论文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括 这是一篇2016年的目标检测的文章,也是一篇比较经典的目标检测的文章.作者介绍到,现在表现最好的方法非常的复杂,而本文的方法,简单又容易理解,并且不需要大量的训练集. 文章的大致脉络如图. 产生region proposal 文章提到了滑窗的方法,由于滑窗的方法缺点非常明显,就是每次只能检测一个aspect ratio,所以确

cs231n笔记:线性分类器

cs231n线性分类器学习笔记,非翻译,根据自己的学习情况总结出的内容: 线性分类 本节介绍线性分类器,该方法可以自然延伸到神经网络和卷积神经网络中,这类方法主要有两部分组成,一个是评分函数(score function):是原始数据和类别分值的映射,另一个是损失函数:它是用来衡量预测标签和真是标签的一致性程度.我们将这类问题转化为优化问题,通过修改参数来最小化损失函数. 首先定义一个评分函数,这个函数将输入样本映射为各个分类类别的得分,得分的高低代表该样本属于该类别可能性的高低.现在假设有一个