使用Caffe完成图像目标检测 和 caffe 全卷积网络

一、【用Python学习Caffe】2. 使用Caffe完成图像目标检测

标签: pythoncaffe深度学习目标检测ssd

2017-06-22 22:08 207人阅读 评论(0) 收藏 举报

 分类:

机器学习(22)  深度学习(12) 

版权声明:本文为博主原创文章,未经博主允许不得转载。

目录(?)[+]

2. 使用Caffe完成图像目标检测

本节将以一个快速的图像目标检测网络SSD作为例子,通过Python Caffe来进行图像目标检测。

必须安装windows-ssd版本的Caffe,或者自行在caffe项目中添加SSD的新增相关源代码.

图像目标检测网络同图像分类网络的大体原理及结构很相似,不过原始图像再经过深度网络后,并不是得到一组反映不同分类种类下概率的向量,而得到若干组位置信息,其反映不同目标在图像中的位置及相应分类等信息。但与分类网络的总体实施结构是一致的。

关于SSD的原理,可以参见其论文:Liu W, Anguelov D, Erhan D, et al. SSD : Single shot multibox detector[C]. In Proc. European Conference on Computer Vision (ECCV). 2016: 21-37.

2.1 准备文件

  • deploy.prototxt: 网络结构配置文件
  • VGG_VOC0712_SSD_300x300_iter_60000.caffemodel: 网络权重文件
  • labelmap_voc.prototxt: 数据集分类名称
  • 测试图像

本文的SSD是在VOC0712数据集下进行训练的,labelmap_voc.prototxt也是该数据库下的各目标的名称,该文件对于目标检测网络的训练任务是必须的,在下节中,我们将重点介绍如何生成LMDB数据库及Labelmap文件。

2.2 加载网络

加载网络的方法,目标检测网络同目标分类网络都是一致的。

    caffe_root = ‘../../‘
    # 网络参数(权重)文件
    caffemodel = caffe_root + ‘models/SSD_300x300/VGG_VOC0712_SSD_300x300_iter_60000.caffemodel‘
    # 网络实施结构配置文件
    deploy = caffe_root + ‘models/SSD_300x300/deploy.prototxt‘
    labels_file = caffe_root + ‘data/VOC0712/labelmap_voc.prototxt‘

    # 网络实施分类
    net = caffe.Net(deploy,  # 定义模型结构
                    caffemodel,  # 包含了模型的训练权值
                    caffe.TEST)  # 使用测试模式(不执行dropout)

2.3 测试图像预处理

预处理主要包含两个部分:

  1. 减去均值
  2. 调整大小
    # 加载ImageNet图像均值 (随着Caffe一起发布的)
    mu = np.load(caffe_root + ‘python/caffe/imagenet/ilsvrc_2012_mean.npy‘)
    mu = mu.mean(1).mean(1)  # 对所有像素值取平均以此获取BGR的均值像素值

    # 图像预处理
    transformer = caffe.io.Transformer({‘data‘: net.blobs[‘data‘].data.shape})
    transformer.set_transpose(‘data‘, (2,0,1))
    transformer.set_mean(‘data‘, mu)
    transformer.set_raw_scale(‘data‘, 255)
    transformer.set_channel_swap(‘data‘, (2,1,0))

2.4 运行网络

  1. 导入输入数据
  2. 通过forward()运行结果

    # 加载图像
    im = caffe.io.load_image(img)
    # 导入输入图像
    net.blobs[‘data‘].data[...] = transformer.preprocess(‘data‘, im)

    start = time.clock()
    # 执行测试
    net.forward()
    end = time.clock()
    print(‘detection time: %f s‘ % (end - start))

2.5 查看目标检测结果

SSD网络的最后一层名为‘detection_out‘,该层输出Blob结构‘detection_out‘中包含了多组元组结构,每个元组结构包含7个参数,其中第2参数表示分类类别序号,第3个参数表示概率置信度,第4~7个参数分别表示目标区域左上及右下的坐标,而元组的个数表明该图像中可能的目标个数。

当然可能不同网络模型的结构不一样,可能会有不同的设置,但至少对于SSD是这样设置的。

    # 查看目标检测结果
    # 打开labelmap_voc.prototxt文件
    file = open(labels_file, ‘r‘)
    labelmap = caffe_pb2.LabelMap()
    text_format.Merge(str(file.read()), labelmap)
    # 得到网络的最终输出结果
    loc = net.blobs[‘detection_out‘].data[0][0]
    confidence_threshold = 0.5
    for l in range(len(loc)):
      if loc[l][2] >= confidence_threshold:
        # 目标区域位置信息
        xmin = int(loc[l][3] * im.shape[1])
        ymin = int(loc[l][4] * im.shape[0])
        xmax = int(loc[l][5] * im.shape[1])
        ymax = int(loc[l][6] * im.shape[0])
        # 画出目标区域
        cv2.rectangle(im, (xmin, ymin), (xmax, ymax), (55 / 255.0, 255 / 255.0, 155 / 255.0), 2)
        # 确定分类类别
        class_name = labelmap.item[int(loc[l][1])].display_name
        cv2.putText(im, class_name, (xmin, ymax), cv2.cv.CV_FONT_HERSHEY_SIMPLEX, 1, (55, 255, 155), 2)

2.6 目标检测结果展示

2.7 具体代码下载

GitHub仓库Caffe-Python-Tutorial中的detection.py

项目地址:https://github.com/tostq/Caffe-Python-Tutorial

二、caffe 全卷积网络

标签: caffe全卷积网络fcnsegnet

2017-05-20 17:03 158人阅读 评论(0) 收藏 举报

 分类:

caffe(4) 

版权声明:本文为博主原创文章,未经博主允许不得转载。

目录(?)[+]

论文:Long_Fully_Convolutional_Networks

简介

  • 全卷积网络相对于之前的cnn,是对图像中的每个像素点进行分类
  • 常用于图像的语义分割中

参考

测试

  • 需要下载pascalVoc的数据集
  • 下载代码之后,在其根目录下新建py文件如下
    import numpy as np
    from PIL import Image
    import matplotlib.pyplot as plt
    caffe_root = ‘/home/gry/libs/caffe/‘
    import sys
    sys.path.insert(0,caffe_root + ‘python/‘)
    import caffe
    
    fn = ‘data/pascal/VOCdevkit/VOC2012/JPEGImages/2007_000129.jpg‘
    im = Image.open( fn )
    # im = im.resize([500,500],Image.ANTIALIAS)
    # im.save("1.jpg","JPEG")
    
    npimg = np.array( im, dtype=np.float32 )
    print( ‘max val of the npimg is : %f‘%(npimg.max()) )
    npimg -= np.array((104.00698793,116.66876762,122.67891434))
    npimg.shape
    
    npimg = npimg.transpose( (2,0,1) )
    
    # load net
    # net = caffe.Net( ‘voc-fcn8s/deploy.prototxt‘,‘voc-fcn8s/fcn8s-heavy-pascal.caffemodel‘, caffe.TEST )
    net = caffe.Net( ‘voc-fcn16s/deploy.prototxt‘,‘voc-fcn16s/fcn16s-heavy-pascal.caffemodel‘, caffe.TEST )
    # shape for input (data blob is N x C x H x W), set data
    # note : the H X W is not necessary to be equal with the network H X W
    # but the channel must be equal
    net.blobs[‘data‘].reshape(1, *npimg.shape)
    net.blobs[‘data‘].data[...] = npimg
    # net.blobs[‘data‘].data.shape
    # run net and take argmax for prediction
    net.forward()
    out = net.blobs[‘score‘].data[0].argmax(axis=0)
    
    plt.imshow(out,cmap=‘autumn‘);plt.axis(‘off‘)
    plt.savefig(‘test.png‘)
    plt.show()
    print(‘end now‘)
    
  • 用不同的caffemodel得到的结果如下
    • 原图 
    • voc-fcn8s 
    • voc-fcn16s 
    • voc-fcn32s 

SegNet

简介

  • 基于caffe

参考链接

测试

  • 下载基于cudnn5的segnet代码与segnet-tutorial的代码,按照参考链接里的教程组织文件结构
  • 修改trian.txttest.txt,并3进行训练
  • 如果显存超过限制,则需要减小训练的batchsize
  • 转换caffemodel并按照教程里的方式进行测试,可以实时显示原图、groudtruth与网络输出图像
  • 原代码中使用的是plt.show(),需要关闭之后才能继续运行,为更方便的显示,可以结合opencvimshowwaitKey
时间: 2024-10-09 02:15:41

使用Caffe完成图像目标检测 和 caffe 全卷积网络的相关文章

caffe框架下目标检测——faster-rcnn实战篇操作

原有模型 1.下载fasrer-rcnn源代码并安装 git clone --recursive https://github.com/rbgirshick/py-faster-rcnn.git 1)  经常断的话,可以采取两步: git clone https://github.com/rbgirshick/py-faster-rcnn.git 2)  到py-faster-rcnn中,继续下载caffe-faster-rcnn,采取后台跑: git submodule update --in

R-FCN:基于区域的全卷积网络来检测物体

http://blog.csdn.net/shadow_guo/article/details/51767036 原文标题为"R-FCN: Object Detection via Region-based Fully Convolutional Networks ",作者代季峰 1,14年毕业的清华博士到微软亚洲研究院的视觉计算组,CVPR 16 两篇一作的会议主持人~ ╰(°▽°)╯ 同时公布了源码~ 2 后面主要内容为原文随便的翻译或概括.必有不紧贴原文原意之处,曲解请指出,否则

卫星图像目标检测

1.You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery 论文时间:2018.5 论文地址:https://arxiv.org/pdf/1805.09512.pdf 网络结构: 基于YOLOv2的改进网络结构,为了解决目标较小问题,输出特征图从13变成26,输入图像尺寸416 测试过程: 采用滑动窗口法选择416大小的区域,相邻区域之间重叠15%避免物体在边界被分割的情况.如下图 算法性能: 大于

在opencv3中利用SVM进行图像目标检测和分类

采用鼠标事件,手动选择样本点,包括目标样本和背景样本.组成训练数据进行训练 1.主函数 #include "stdafx.h" #include "opencv2/opencv.hpp" using namespace cv; using namespace cv::ml; Mat img,image; Mat targetData, backData; bool flag = true; string wdname = "image"; voi

Windows Caffe(三) 图像数据转化为Caffe可以运行的数据

在运行Caffe自带的两个例子的时候,我们的数据都来自互联网,是直接下载的二进制文件. 但我们大多数情况下使用的是原始的图片数据(如.jpg .png等),接下来研究如何将原始的图片数据转化为caffe可以运行的数据. 1.准备图片数据 caffe安装完成之后,在example/images文件下会有四张.jpg图片,cat.jpg, cat gray,jpg, cat_gray.jpg, fish-back.jpg 2.生成图片清单 我们写需要一个sh脚本,调用Linux命令生成图片的清单.W

『Caffe』图像检测程序(待续)

和图像分类不同,图像检测涉及更多的技术基础,本程序是基于传统的滑窗模式完成检测,当下已经有了最新的基于caffe的RCNN.Fast-RCNN.Faster-RCNN以及SSD框架 ,个中思路不同,不得叹惋前路漫漫.由于接触本部时走了很多弯路,所以给出几个关键词用于学习滑窗检测理论基础学习:overfeat:全卷积网络:图像金字塔:非极大值抑制,当然了,传统的卷积分类网络也要了解. 程序调用逻辑图如下: 库导入以及参数设置部分: 1 # coding=utf-8 2 import numpy a

航空遥感图像(Aerial Images)目标检测数据集汇总

常规目标检测数据集有很多,现在前沿的目标检测算法(如Faster R-CNN, Yolo, SSD, Mask R-CNN等)基本都是在这些常规数据集上实验的,但是,基于常规数据集训练的分类器,在航空遥感图像上的检测效果并不好,主要原因是航空遥感图像有其特殊性: 1,尺度多样性,航空遥感图像从几百米到近万米的拍摄高度都有,且地面目标即使是同类目标也大小不一,如港口的轮船大的有300多米,小的也只有数十米: 2,视角特殊性,航空遥感图像的视角基本都是高空俯视,但常规数据集大部分还是地面水平视角,所

基于深度学习的目标检测

普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类的目标是要识别出图中所示是一只猫.而在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛以及实际的应用中,还包括目标定位和目标检测等任务.其中目标定位是不仅仅要识别出来是什么物体(即分类),而且还要预测物体的位置,位置一般用边框(bounding box)标记,如图1(2)所示.而目标检测实质是多目标的定位,即要在图片中定位多个目标物体,包括分类和定位.比如对图1(3

关于目标检测

目标检测 Region based network RCNN 一张图像生成1K~2K个候选区域 对每个候选区域,使用深度网络提取特征 特征送入每一类的SVM 分类器,判别是否属于该类 使用回归器精细修正候选框位置 Selective Search 候选框生成 传统的生成方法,就是检测就是不同大小的滑动窗进行穷举,然后使用分类器判断哪个滑动窗是目标.而SS根据颜色,纹理之类的信息去把图片划分成不同区域可以相对于穷举搜索大量减少计算量,是简单的搜索剪枝思路.通过简单的区域划分算法,将图片划分成很多小