10分钟搭建你的第一个图像识别模型(附步骤、代码)

翻译:王威力

校对:丁楠雅

本文约3400字,建议阅读10分钟。

本文介绍了图像识别的深度学习模型的建立过程,通过陈述实际比赛的问题、介绍模型框架和展示解决方案代码,为初学者提供了解决图像识别问题的基础框架。

序言

“几分钟就可以建立一个深度学习模型?训练就要花几个小时好吗!我甚至没有一台足够好的机器。”我听过无数次有抱负的数据科学家这样说,他们害怕在自己的机器上构建深度学习模型。

其实,你不必在谷歌或其他大型科技公司工作,就可以训练深度学习数据集。你完全可以用几分钟的时间从头搭建起你自己的神经网络,而不需要租谷歌的服务器。Fast.ai的学生花了18分钟设计出了用于ImageNet数据集的一个模型,接下来我将在本文中展示类似的方法。

深度学习是一个广泛的领域,所以我们会缩小我们的关注点在图像分类问题上。而且,我们将使用一个非常简单的深度学习架构来达到一个很好的准确率。

你可以将本文中的Python代码作为构建图像分类模型的基础,一旦你对这些概念有了很好的理解,可以继续编程,参加比赛、登上排行榜。

如果你刚开始深入学习,并且对计算机视觉领域着迷(谁不是呢?!)一定要看一看Computer Vision using Deep Learning的课程,它对这个酷炫的领域进行了全面的介绍,将为你未来进入这个巨大的就业市场奠定基础。

课程链接:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+CVDL101+CVDL101_T1/ about?utm_source=imageclassarticle&utm_ medium=blog

目录

一、什么是图像分类以及它的应用案例

二、设置图像数据结构

三、分解模型建立过程

四、设置问题定义并认识数据

五、建立图像分类模型的步骤

六、开始其他挑战

一、什么是图像分类以及它的应用案例

观察以下图片:

你应该可以马上就认出它——是一俩豪华车。退一步来分析一下你是如何得到这个结论的——你被展示了一张图片,然后你将它划分为“车”这个类别(在这个例子中)。简单来说,这个过程就是图像分类。

很多时候,图像会有许多个类别。手动检查并分类图像是一个非常繁琐的过程。尤其当问题变为对10000张甚至1000000张图片的时候,这个任务几乎不可能完成。所以如果我们可以将这个过程自动化的实现并快速的标记图像类别,这该有多大的用处啊。

自动驾驶汽车是一个图像分类在现实世界应用的很好的例子。为了实现自动驾驶,我们可以建立一个图像分类模型来识别道路上的各种物体,如车辆、人、移动物体等。我们将在接下来的部分中看到更多的应用,甚至在我们的身边就有许多的应用。

既然我们已经掌握了主题,那么让我们来深入研究一下如何构建图像分类模型,它的先决条件是什么,以及如何在Python中实现它。

二、设置图像数据结构

我们的数据集需要特殊的结构来解决图像分类问题。我们将在几个部分中看到这一点,但在往下走之前,请记住这些建议。

你应该建立两个文件夹,一个放训练集,另一个放测试集。训练集的文件夹里放一个csv文件和一个图像文件夹:

  • csv文件存储所有训练图片的图片名和它们对应的真实标签
  • 图像文件夹存储所有的训练图片

测试集文件夹中的csv文件和训练集文件夹中的csv文件不同,测试集文件夹中的csv文件只包含测试图像的图片名,不包括它们的真实标签。因为我们要通过训练训练集中的图片来对测试集中的图片进行预测。

如果你的数据集不是这样的格式,你需要进行转换,否则的话预测结果可能有错误。

三、分解模型搭建的过程

在我们研究Python代码之前,让我们先理解图像分类模型通常是如何设计的。可以将过程分为4个部分。每个步骤需要一定时间来执行:

第一步:加载和预处理数据——30%时间

第二步:定义模型架构——10%时间

第三步:训练模型——50%时间

第四步:评价模型表现——10%时间

接下来我会更详细地解释一下上面的每一个步骤。这一部分非常重要,因为并非所有模型都是在第一步构建的。你需要在每次迭代之后返回,对步骤进行微调,然后再次运行它。对基础概念有一个扎实的理解,对于加速整个过程将有很大的帮助。

  • 第一步:加载和预处理数据

就深度学习模型而言,数据非常关键。如果训练集中有大量的图像,你的图像分类模型也会有更大的可能实现更好的分类效果。此外,根据所用的框架不同,数据的维度不同,效果也不一样。

因此,对于关键的数据预处理这一步,我推荐大家浏览下面这篇文章,来对图像数据的预处理有一个更好的理解:

Basics of Image Processing in Pythonhttps://www.analyticsvidhya.com/blog/2014/12/image-processing-python-basics/)

但我们还没完全到数据预处理这一步,为了了解我们的数据在新的之前没见过的数据集中的表现(在预测测试集之前),我们需要先从训练集中划分出一部分为验证集。

简而言之,我们在训练集上训练模型然后在验证集上进行验证。如果我们对在验证集上的结果满意,就可以用来预测测试集的数据。

所需时间:大约2-3分钟。

  • 第二步:建立模型框架

这是深度学习模型建立过程中的另一个重要的步骤。在这个过程中,需要思考这样几个问题:

  • 需要多少个卷积层?
  • 每一层的激活函数是什么?
  • 每一层有多少隐藏单元?

还有其他一些问题。但这些基本上是模型的超参数,它们对预测结果起着重要作用。

如何确定这些超参的值?好问题!一个方法是根据现有的研究选择这些值。另一个想法是不断尝试这些值,直到找到最好的,但这可能是一个非常耗时的过程。

所需时间:大约1分钟定义这个框架。

  • 第三步:训练模型

对模型训练,我们需要:

  • 训练图像和它们的真实标签。
  • 验证集图像和其真实标签。(我们只用验证集的标签进行模型评估,不用于训练)

我们还需要定义迭代次数(epoch)。开始阶段,我们训练10次(你可以再更改)。

所需时间:大概5分钟,来进行模型的结构的学习。

  • 第四步:评估模型表现

最后,我们加载测试数据(图像)并完成预处理步骤。然后我们使用训练模型预测这些图像的类别。

所需时间:1分钟

四、设置问题定义并认识数据

我们将尝试一个非常酷的挑战来理解图像分类。我们需要建立一个模型,可以对给定的图像进行分类(衬衫、裤子、鞋子、袜子等)。这实际上是许多电子商务零售商面临的一个问题,这使得它成为一个更有趣的计算机视觉问题。

这个挑战被称为“识别服装”,是我们在数据黑客平台上遇到的实践问题之一。你必须注册并从上面的链接下载数据集。

“识别服装”比赛链接:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-apparels/)数据黑客平台:https://datahack.analyticsvidhya.com/

一共有70000图像(28x28维),其中60000来自训练集,10000来自测试集。训练图像已经预先被打上了衣服类别的标签,一共10个类别。测试集没有标签。这个比赛是对测试集的图像进行识别。

我们将在Google Colab搭建模型,因为它提供免费的GPU。

Google Colab:https://colab.research.google.com/

五、建立图像分类模型的步骤

接下来是时候展示你的Python技巧啦,最终我们到了执行阶段!

主要步骤如下:

  • 设置Google Colab
  • 导入库
  • 导入数据预处理数据(3分钟)
  • 设置验证集
  • 定义模型结构(1分钟)
  • 训练模型(5分钟)
  • 预测(1分钟)

下面详细介绍以上步骤。

  • 第1步:设置Google Colab

因为我们将从Google Drive link导入数据,我们需要在Google Colab notebook上增加几条代码。新建Python3 notebook,写下下面的代码:

!pip install PyDrive

这一步是安装PyDrive。下面导入需要的库:

import osfrom pydrive.auth import GoogleAuthfrom pydrive.drive import GoogleDrivefrom google.colab import authfrom oauth2client.client import GoogleCredentials

下面创建drive变量访问Google Drive:

auth.authenticate_user()gauth = GoogleAuth()gauth.credentials = GoogleCredentials.get_application_default()drive = GoogleDrive(gauth)

需要用Google Drive上传文件的ID来下载数据集:

download = drive.CreateFile({‘id‘: ‘1BZOv422XJvxFUnGh-0xVeSvgFgqVY45q‘})

把id的部分替换为你的文件夹的ID。接下来将下载文件夹并解压。

download.GetContentFile(‘train_LbELtWX.zip‘)!unzip train_LbELtWX.zip

每次启动notebook都需要运行以上代码。

  • 第2步:导入模型所需的库。
import kerasfrom keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dfrom keras.utils import to_categoricalfrom keras.preprocessing import imageimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom keras.utils import to_categoricalfrom tqdm import tqdm
  • 第3步:接下来是数据导入和数据预处理。
train = pd.read_csv(‘train.csv‘)

接下来,我们将读入训练集,存储为list,最终转换为numpy array。

# We have grayscale images, so while loading the images we will keep grayscale=True, if you have RGB images, you should set grayscale as Falsetrain_image = []for i in tqdm(range(train.shape[0])): img = image.load_img(‘train/‘+train[‘id‘][i].astype(‘str‘)+‘.png‘, target_size=(28,28,1), grayscale=True) img = image.img_to_array(img) img = img/255 train_image.append(img)X = np.array(train_image)

这是一个多分类问题(10个类别),需要对标签变量进行one-hot编码。

y=train[‘label‘].valuesy = to_categorical(y)
  • 第4步:从训练集中划分验证集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)
  • 第5步:定义模型结构

我们将建立一个简单的结构,有2个卷积层,一个隐藏层一个输出层。

model = Sequential()model.add(Conv2D(32, kernel_size=(3, 3),activation=‘relu‘,input_shape=(28,28,1)))model.add(Conv2D(64, (3, 3), activation=‘relu‘))model.add(MaxPooling2D(pool_size=(2, 2)))model.add(Dropout(0.25))model.add(Flatten())model.add(Dense(128, activation=‘relu‘))model.add(Dropout(0.5))model.add(Dense(10, activation=‘softmax‘))

接下来编译模型。

model.compile(loss=‘categorical_crossentropy‘,optimizer=‘Adam‘,metrics=[‘accuracy‘])
  • 第6步:训练模型

在这一步,我们将训练训练集的数据,在验证集上进行验证。

model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))
  • 第7步:预测!

我们将首先遵循处理训练数据集时执行的步骤。加载测试图像并预测分类结果,用model.predict_classes()函数预测它们的类。

download = drive.CreateFile({‘id‘: ‘1KuyWGFEpj7Fr2DgBsW8qsWvjqEzfoJBY‘})download.GetContentFile(‘test_ScVgIM0.zip‘)!unzip test_ScVgIM0.zip

首先导入测试集:

test = pd.read_csv(‘test.csv‘)

接下来,读于数据并存储测试集:

test_image = []for i in tqdm(range(test.shape[0])): img = image.load_img(‘test/‘+test[‘id‘][i].astype(‘str‘)+‘.png‘, target_size=(28,28,1), grayscale=True) img = image.img_to_array(img) img = img/255 test_image.append(img)test = np.array(test_image)# making predictionsprediction = model.predict_classes(test)

还需要新建一个提交文件夹,用来上传DataHack平台。

download = drive.CreateFile({‘id‘: ‘1z4QXy7WravpSj-S4Cs9Fk8ZNaX-qh5HF‘})download.GetContentFile(‘sample_submission_I5njJSF.csv‘)# creating submission filesample = pd.read_csv(‘sample_submission_I5njJSF.csv‘)sample[‘label‘] = predictionsample.to_csv(‘sample_cnn.csv‘, header=True, index=False)

下载sample_cnn.csv文件并上传到比赛的页面,生成你的排名。这提供了一个帮助你开始解决图像分类问题的基础方案。

你可以尝试调整超参数和正则化来提高模型效果。也可以通过阅读下面这篇文章来理解调参的细节。

A Comprehensive Tutorial to learn Convolutional Neural Networks from Scratchhttps://www.analyticsvidhya.com/blog/2018/12/guide-convolutional-neural-network-cnn/

六、开启一个新的挑战

让我们尝试在其他的数据集进行测试。这部分,我们将解决Identify the Digits上的这个问题。

Identify the Digits比赛链接:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

在你往下看之前,请尝试自己来解决这个挑战。你已经收获了解决问题的工具,只需要使用它们。当你遇到困难的时候可以再回来检查你的过程和结果。

在这个挑战中,我们需要识别给定图像中的数字。一共有70000张图片,49000张训练图像有标签,剩下的21000张为测试图片无标签。

准备好了吗?好!打开新的Python3 notebook,运行下面的代码:

# Setting up Colab!pip install PyDriveimport osfrom pydrive.auth import GoogleAuthfrom pydrive.drive import GoogleDrivefrom google.colab import authfrom oauth2client.client import GoogleCredentialsauth.authenticate_user()gauth = GoogleAuth()gauth.credentials = GoogleCredentials.get_application_default()drive = GoogleDrive(gauth)# Replace the id and filename in the below codesdownload = drive.CreateFile({‘id‘: ‘1ZCzHDAfwgLdQke_GNnHp_4OheRRtNPs-‘})download.GetContentFile(‘Train_UQcUa52.zip‘)!unzip Train_UQcUa52.zip# Importing librariesimport kerasfrom keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dfrom keras.utils import to_categoricalfrom keras.preprocessing import imageimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom keras.utils import to_categoricalfrom tqdm import tqdmtrain = pd.read_csv(‘train.csv‘)# Reading the training imagestrain_image = []for i in tqdm(range(train.shape[0])): img = image.load_img(‘Images/train/‘+train[‘filename‘][i], target_size=(28,28,1), grayscale=True) img = image.img_to_array(img) img = img/255 train_image.append(img)X = np.array(train_image)# Creating the target variabley=train[‘label‘].valuesy = to_categorical(y)# Creating validation setX_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)# Define the model structuremodel = Sequential()model.add(Conv2D(32, kernel_size=(3, 3),activation=‘relu‘,input_shape=(28,28,1)))model.add(Conv2D(64, (3, 3), activation=‘relu‘))model.add(MaxPooling2D(pool_size=(2, 2)))model.add(Dropout(0.25))model.add(Flatten())model.add(Dense(128, activation=‘relu‘))model.add(Dropout(0.5))model.add(Dense(10, activation=‘softmax‘))# Compile the modelmodel.compile(loss=‘categorical_crossentropy‘,optimizer=‘Adam‘,metrics=[‘accuracy‘])# Training the modelmodel.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))download = drive.CreateFile({‘id‘: ‘1zHJR6yiI06ao-UAh_LXZQRIOzBO3sNDq‘})download.GetContentFile(‘Test_fCbTej3.csv‘)test_file = pd.read_csv(‘Test_fCbTej3.csv‘)test_image = []for i in tqdm(range(test_file.shape[0])): img = image.load_img(‘Images/test/‘+test_file[‘filename‘][i], target_size=(28,28,1), grayscale=True) img = image.img_to_array(img) img = img/255 test_image.append(img)test = np.array(test_image)prediction = model.predict_classes(test)download = drive.CreateFile({‘id‘: ‘1nRz5bD7ReGrdinpdFcHVIEyjqtPGPyHx‘})download.GetContentFile(‘Sample_Submission_lxuyBuB.csv‘)sample = pd.read_csv(‘Sample_Submission_lxuyBuB.csv‘)sample[‘filename‘] = test_file[‘filename‘]sample[‘label‘] = predictionsample.to_csv(‘sample.csv‘, header=True, index=False)

在练习题页面上提交这个文件,你会得到一个相当不错的准确率。这是一个好的开端,但总有改进的余地。继续肝,看看你是否可以改进我们的基本模型。

尾声

谁说深度学习模型需要数小时或数天的训练。我的目的是展示你可以在双倍快速的时间内想出一个相当不错的深度学习模式。你应该接受类似的挑战,并尝试从你的终端编码它们。什么都比不上通过实践来学习!

顶尖的数据科学家和分析师甚至在黑客比赛开始之前就已经准备好了这些代码。他们使用这些代码在深入详细分析之前提前提交。先给出基准解决方案,然后使用不同的技术改进模型。

你觉得这篇文章有用吗?请在下面的评论部分分享你的反馈。

原文标题:

Build your First Image Classification Model in just 10 Minutes!

原文链接:

https://www.analyticsvidhya.com/blog/2019/01/build-image-classification-model-10-minutes/

编辑:黄继彦

原文地址:https://www.cnblogs.com/wuhh123/p/10844076.html

时间: 2024-10-11 02:55:12

10分钟搭建你的第一个图像识别模型(附步骤、代码)的相关文章

AliOS Things+阿里云 10分钟搭建智慧农业解决方案

摘要: AliOS Things+阿里云 10分钟搭建智慧农业解决方案 1.1 样品介绍 在工业.农业物联网布线场景中以MODBUS类型为主,样品提供MODBUS类型传感器硬件和软件快速接入方案,并将传感器数据上传到阿里云物联网平台,在云端table store数据库存储,在datav数据大屏上可视化展示. AliOS Things+阿里云 10分钟搭建智慧农业解决方案1.1 样品介绍在工业.农业物联网布线场景中以MODBUS类型为主,样品提供MODBUS类型传感器硬件和软件快速接入方案,并将传

10分钟搭建 App 主流框架

搭建主流框架界面 0.达成效果 我们玩iPhone应用的时候,有没发现大部分的应用都是上图差不多的结构,下面的TabBar控制器可以切换子控制器,上面又有Navigation导航条 我们本文主要是搭建主体的框架,数据暂时没有添加 分析做项目的基本流程 1.搭建项目主框架 (1)先搭建tabBarController(下面有一条) (2)再搭建NavigationController(上面有一条,并且每个子控制器的不一样) 2.思考开发方式 (1)storyboard搭建(界面很少的时候使用) (

【转】10分钟搭建NDK的Android开发环境

原文网址:http://blog.csdn.net/u012176591/article/details/23018913 作者:金良([email protected]) csdn博客:http://blog.csdn.net/u012176591 1. 安装JDK. 1.1 去官网http://www.oracle.com/technetwork/java/javase/downloads/index.html下载JDK7软件包,我下载的是jdk-7u51-windows-i586.exe.

10分钟搭建一个小型网页(python django)(hello world!)

1.安装django pip install django 安装成功后,在Scripts目录下存在django-admin.py的文件. 2.安装 mysql接口 pip install MySQL-python 2.创建项目HelloWorld 通过调用django-admin文件中的startproject命令进行安装. cd到目录下,执行命令 django-admin startproject HelloWorld 3. runserver启动项目服务器 接下来进入HelloWorld项目

10分钟理解Android数据库的创建与使用(附具体解释和演示样例代码)

1.Android数据库简单介绍. Android系统的framework层集成了Sqlite3数据库.我们知道Sqlite3是一种轻量级的高效存储的数据库. Sqlite数据库具有以下长处: (1)零配置,无需安装和配置: (2)储存在单一磁盘文件里的一个完整的数据库. (3)数据库文件能够在不同字节顺序的机器间自由共享: (4)支持数据大小至2TB: (5)足够小.全部源码大致3万行C代码.250KB: (6)比眼下流行的大多数数据库的操作要快. (7)开源. 2.Sqlite 基本操作语句

10分钟理解Android数据库的创建与使用(附详解和示例代码)

1.Android数据库简介. Android系统的framework层集成了Sqlite3数据库,我们知道Sqlite3是一种轻量级的高效存储的数据库. Sqlite数据库具有以下优点: (1)零配置,无需安装和配置: (2)储存在单一磁盘文件中的一个完整的数据库: (3)数据库文件可以在不同字节顺序的机器间自由共享: (4)支持数据大小至2TB: (5)足够小,全部源代码大致3万行C代码,250KB: (6)比目前流行的大多数数据库的操作要快: (7)开源. 2.Sqlite 基本操作语句和

Linux下LCD 10分钟自动关屏的问题总结

Linux下的LCD驱动默认10分钟后会自动关闭屏幕,我们可以修改一下代码让其不自动关屏 在有一个 drivers/char/vt.c 文件其中有一个变量(blankinterval)可以设置它来修改自动关屏的时间,也可以在函数(blank_screen_t)开头直接返回,这样就永远不会关屏了 在用LCD显示的时候,发现10分钟LCD就不再工作了.确实,Linux下有一个参数blankinterval的值就是10*60*Hz. 它决定了LCD只显示10分钟,然后LCD控制器就被关掉了. 具体细节

10分钟入门微信小程序开发:从环境搭建到开发出第一个程序。

小程序简介 小程序是一种不需要下载安装即可使用的快速应用,它实现了应用“触手可及”的操作:用户扫一扫或搜一下即可打开应用,完全不需要安装,因此小程序不仅可提高的用户的应用体验,也方便应用的传扩散. 本文带大家快速入门小程开发,了解从环境搭建到开发出一个简单hello world程序,从而上手小程序开发,让你快速成功小程序开发人员.之后,想开发什么样的小程序,就可以自己研究和努力了. 下面,是循序渐经的步骤: ?1.注册小程序 在开发之前,当然需要先注册一个小程序账号. 进入“微信公众平台”进行注

10分钟学会Less开发环境搭建与初体验

Less 是一门 CSS 预处理语言,它扩充了 CSS 语言,增加了诸如变量.混合(mixin).函数等功能,让 CSS 更易维护.方便制作主题.扩充. 今天看一下,10分钟能不能手把手快速教会你Less环境搭建以及使用入门. Less环境搭建: 1).安装nodejs.打开命令提示符(win+r),分别输入node -v以及npm -v如果返回版本号说明你安装成功了 2).安装less.在"命令提示符"下运行命令"npm install less -g" 3).配