ImageNet && 医学图像的识别

医学图像识别的问题

如果将CNN应用于医学图像，首要面对的问题是训练数据的缺乏。因为CNN的训练数据都需要有类别标号，这通常需要专家来手工标记。要是标记像ImageNet这样大规模的上百万张的训练图像，简直是不可想象的。

因为CNN的参数多，必须依靠大规模的训练数据才能防止过度拟合（Over Fitting）。在数据量少的情况下，有两种解决方案：一个叫Data Augmentation。就是依赖现有的图像，通过旋转，平移，变形等变化，产生更多的图像。二是使用转移学习(Transfer Learning)。其思想是通过在另一种大规模的数据集上面训练，得到CNN的参数作为初始值，再在目标数据集上训练对参数进行调优（Fine-tuning）。

转移训练的原理是某些特征在不同的训练数据集上是具有通用性的。对于CNN而言，其第一层是提取局部的特征，在后续层通过下采样扩大感知区域, 再往后的层感知区域更大，得到的特征也更加抽象。在前几层的特征通常并不与某一个具体的分类任务直接相关，而是类似于Gabor Filter, 边缘，与方向有关的特征等。这些特征都是比较通用的，因此可以在一个数据集上训练得到而应用在一个与之类似的数据集上。当然，如果训练出的特征对某个训练数据集或者识别任务具有特异性，用它做转移学习就未必有好的效果。

对于医学图像而言，得到大规模的训练数据是比较不容易的，那么可否使用Transfer Learning利用现成的ImageNet的图像来帮助医学图像的识别呢？ImageNet里面的图像（二维，彩色）没有医学图像，包含一些诸如鸟类、猫、狗、直升机等物体的识别，与医学图像（二维或三维，非彩色）相差很大。如果回答是肯定的话，是一件令人非常振奋的事情。

使用ImageNet做转移学习的效果

在NIH的Hoo-Chang Shin ; Holger R. Roth等人最近的一篇文章中研究了这个问题（下载链接）。其全名为：Deep Convolutional Neural Networks for Computer-Aided Detection: CNN Architectures, Dataset Characteristics and Transfer Learning。

该文章除了研究上述问题，还比较了CifarNet （2009年）, AlexNet(2012年)和GoogleNet(2014年)这三个一个比一个复杂的网络结构在不同的训练数据量的情况下的性能。这三个网络的结构简图如下：

该文章研究的医学图像应用为CT图像中胸腹部淋巴结（三维）的检测和肺部疾病的分类（二维）。如何让彩色二维图像与医学图像相结合呢？该文采用了两个小技巧：

对于三维CT图像，将通过某一点的冠状面、矢状面和横断面的三个二维图像组合在一起，作为RGB的三个通道，使之与彩色图像兼容。对二维CT图像，分别采用三种不同的CT灰度窗口，得到三张图像，组合成彩色图像。

实验的结果如上图。可以看出，在不使用Transfer Learning的情况下（Random Initialization, RI），AlexNet虽然比GoogleNet简单，但是效果比GoogleNet好，这是因为GoogleNet参数太多，训练数据不够导致过度拟合，使其泛化能力下降，从而分类精度降低。使用了Transfer Learning （TL）后，GoogleNet的性能提高很多，效果比AlexNet要好。

Random Initialization和Transfer Learning 在训练过程中的性能比较如下图：

可见Transfer Learning减少了测试数据上的误差，提高了分类的准确率。

再来看看Transfer Learning学到了那些特征：

上图显示了在CNN的第一层中学习到的特征。可以看出在不使用Transfer Learning的情况下，单从CT图像上学习到的特征都表现出比较模糊的样子，而使用Transfer Learning的CNN相应的特征中包含一些和边缘有关的特征，这些实际上是从ImageNet中学习过来的，但有助于CT图像的分类和识别。

顶: 0

踩

时间： 2024-10-10 22:26:27

ImageNet && 医学图像的识别的相关文章

刷新神经网络新深度：ImageNet计算机视觉挑战赛微软中国研究员夺冠

微软亚洲研究院首席研究员孙剑世界上最好计算机视觉系统有多精确?就在美国东部时间12月10日上午9时,ImageNet计算机视觉识别挑战赛结果揭晓——微软亚洲研究院视觉计算组的研究员们凭借深层神经网络技术的最新突破,以绝对优势获得图像分类.图像定位以及图像检测全部三个主要项目的冠军.同一时刻,他们在另一项图像识别挑战赛MS COCO(Microsoft Common Objects in Context,常见物体图像识别)中同样成功登顶,在图像检测和图像分割项目上击败了来自学界.企业和研究机构的

深度学习文字识别

Blog:https://blog.csdn.net/implok/article/details/95041472 步骤: 文字识别是AI的一个重要应用场景,文字识别过程一般由图像输入.预处理.文本检测.文本识别.结果输出等环节组成. 分类:文字识别可根据待识别的文字特点采用不同的识别方法,一般分为定长文字.不定长文字两大类别. 定长文字(例如手写数字识别.验证码),由于字符数量固定,采用的网络结构相对简单,识别也比较容易: 不定长文字(例如印刷文字.广告牌文字等),由于字符数量是不固定的,因

深度学习“引擎”之争：GPU加速还是专属神经网络芯片？

深度学习“引擎”之争:GPU加速还是专属神经网络芯片? 深度学习(Deep Learning)在这两年风靡全球,大数据和高性能计算平台的推动作用功不可没,可谓深度学习的“燃料”和“引擎”,GPU则是引擎的引擎,基本所有的深度学习计算平台都采用GPU加速.同时,深度学习已成为GPU提供商NVIDIA的一个新的战略方向,以及3月份的GTC 2015的绝对主角. 那么,GPU用于深度学习的最新进展如何?这些进展对深度学习框架有哪些影响?深度学习开发者应该如何发挥GPU的潜力?GPU与深度学习结合的前景

（转载）深度学习三十年创新路

转载自:http://36kr.com/p/533832.html 编者注:深度学习火了,从任何意义上,大家谈论它的热衷程度,都超乎想象.但是,似乎很少有人提出不同的声音,说深度学习的火热,有可能是过度的繁荣,乃至不理性的盲从.而这次,有不同的想法出现了. 本篇文章来自依图科技 CEO Leo的投稿,依图科技是一家专注研究CV(Computer Vison,计算机视觉)的以技术驱动的创业公司,Leo自己也在这一领域有深入研究,因此这次写下这篇文章,希望回顾一下深度学习三十年的创新之路. 近期Na

深度学习三十年创新路

深度学习三十年创新路编者注:深度学习火了,从任何意义上,大家谈论它的热衷程度,都超乎想象.但是,似乎很少有人提出不同的声音,说深度学习的火热,有可能是过度的繁荣,乃至不理性的盲从.而这次,有不同的想法出现了. 本篇文章来自依图科技 CEO Leo的投稿,依图科技是一家专注研究CV(Computer Vison,计算机视觉)的以技术驱动的创业公司,Leo自己也在这一领域有深入研究,因此这次写下这篇文章,希望回顾一下深度学习三十年的创新之路. 近期Nature杂志刊登了Lecun.Bengio.H

论文阅读（Lukas Neumann——【ICCV2017】Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework）

Lukas Neumann--[ICCV2017]Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework 目录作者和相关链接方法概括方法细节实验结果总结与收获点参考文献和链接作者和相关链接作者论文下载代码下载方法概括方法概述该方法将文字检测和识别整合到一个端到端的网络中.检测使用YOLOv2+RPN,并利用双线性采样将文字区域统一为高度一致的变长