如何使用深度学习破解验证码 keras 连续验证码

在实现网络爬虫的过程中,验证码的出现总是会阻碍爬虫的工作。本期介绍一种利用深度神经网络来实现的端到端的验证码识别方法。通过本方法,可以在不切割图片、不做模板匹配的情况下实现精度超过90%的识别结果。

本文分为两个部分,第一个部分介绍如何利用深度神经网络实现验证码的训练和识别,第二个部分介绍在实现过程中需要克服的工程问题。

一. 基于深度神经网络的验证码识别

验证码的识别是从图片到文字的过程。传统的算法如OCR正是为了解决此类问题而设计的。然而,在真实情形中,验证码通常并不以规则的文字出现,即文字通常会有不同程度的变形,图像本身也通常会被添加或多或少的噪声。这些干扰的出现,使得文字分割、模板匹配不再有效,进而OCR算法也很难解析出结果。

近年来,深度神经网络(DNN)在图像识别领域已经被证明了强大的识别能力。单个文字的识别是典型的分类问题。通常的做法为训练一个深度神经网络,网络的最后一层分为N种类别,代表字符的数目。比如对于英文字母,最后一层的分类器便是26个。比如经典的LeNet(http://yann.lecun.com/exdb/lenet/)即为解决单个文字识别的网络:

然而验证码通常包含多个字符,如何利用现有的网络实现这类分类问题呢?实际上这个问题再机器学习中被称为多标签训练问题。和上述每个图片输入只对应一个标签类别对比,这类分类的输出是多个标签。我们同样可以对传统的神经网络稍作改变以适应这种情况。

我们以最简单的英文字母为例介绍这个过程。如图一所示,此种验证码由5个字母组成;每个字母只取大写,共有26种类别;图片中有干扰线贯穿文字,使得文字分割比较困难。

图一. 验证码实例

接下来,我们设计如图二卷积神经网络:

图二. 卷积神经网络

图二中的网络和一般的CNN网络没有什么特殊之处,前部均是卷积、Pooling层,只有最后在分类时,将26个类别扩增到26*5=130个类别。对于每幅图片的标签而言,在这130维的向量中,每26个维度中有一个1,其余为0,编码了五个字母。接着依然使用交叉熵作为代价函数进而优化此网络。就这样,只要对原先的分类网络做简单的改变即可解决验证码的识别问题。

再如对于数学表达式类型的验证码,我们的网络也只是在编码上把26分类问题变成了13分类问题。下例中(见图三)最后一层的分类器便设计为3*13=39个类别。

图三. 数学式类型验证码的识别

按照此种思路我们破解了很多风格的验证码,如图四所示:

图四. 不同风格验证码破解实例

二. 一些需要解决的实际工程问题

(1) 合成训练数据

前文提到训练的前提是已经拥有了大量的训练数据,而实际在识别验证码时我们很难获取足够多的标注过的训练数据。所以,我们不得不人工合成训练数据。这一部分通常可以调用Java或者C#的文字渲染库来完成。

训练的数据并不是越多越好,主要的问题在于人工合成的数据未免和真实验证码在形态上有些差距,我们都很难合成出一模一样的结果。字体、字号及变形程度都或多或少与真实数据不同,而这种不同可能直接导致训练出的网络面对真实数据时无法发挥作用。

我们的经验是,针对真实数据的特点,在无法很相似地合成出训练数据的情况下,要增大样本的多样性,实际上也是遵循了深度学习中数据增强(Data Augmentation)的思想。如图五所示,左边为真实数据,我们在合成数据时特意增加了每个文字的旋转、平移,加大了噪声,使得训练出的网络能应对数据足够的变化,从而可以识别出左图中真实的例子。否则即便在合成数据上达到了很高的精度,在真实数据上也依然可能精度极低(即在合成数据上过拟合)。

图五. 合成数据实例

(2) 网络大小的选择

针对不同的任务,网络大小对结果的影响也是巨大的。并非所有的任务都得使用很深的网络来训练。理论上说,越深的网络自由度越大,同时也非常容易过拟合。虽然有weight_decay这样参数可以一定程度的对抗过拟合,但通常难度依然是很大的。所以一般来说,对于不太复杂的验证码应该选择较小的网络,只有遇到比较复杂的验证码如中文的成语等,我们的经验才是复杂的网络下效果才更好。

总之,验证码识别可以作为深度学习的一个练手项目来学习,在这个实际项目中可以更容易理解到深度学习理论中诸多概念。

转载于:http://www.saluzi.com/t/topic/16027

时间: 2024-10-03 12:14:06

如何使用深度学习破解验证码 keras 连续验证码的相关文章

【转】TensorFlow练习20: 使用深度学习破解字符验证码

验证码是根据随机字符生成一幅图片,然后在图片中加入干扰象素,用户必须手动填入,防止有人利用机器人自动批量注册.灌水.发垃圾广告等等 . 验证码的作用是验证用户是真人还是机器人:设计理念是对人友好,对机器难. 上图是常见的字符验证码,还有一些验证码使用提问的方式. 我们先来看看破解验证码的几种方式: 人力打码(基本上,打码任务都是大型网站的验证码,用于自动化注册等等) 找到能过验证码的漏洞 最后一种是字符识别,这是本帖的关注点 我上网查了查,用Tesseract OCR.OpenCV等等其它方法都

学习参考+《深度学习基于Keras的Python实践》PDF+ 源代码+魏贞原

深度学习学习框架有tensorflow.pytorch.keras.学习keras时,推荐<深度学习:基于Keras的Python实践>,适合深度学习入门和实践. 尤其是第三部分,利用卷积神经网络解决情感分析问题比较好. <深度学习:基于Keras的Python实践>系统讲解了深度学习的基本知识,以及使用深度学习解决实际问题,详细介绍了如何构建及优化模型,并针对不同的问题给出不同的解决方案,通过不同的例子展示了在具体项目中的应用和实践经验. 推荐参考:<深度学习:基于Kera

框架《Keras深度学习实战》中英文PDF+源代码分析

作为一款轻量级.模块化的开源深度学习框架, Keras 以容易上子.利于快速原型实现.能够与TensorFlow 和Theano 等后端计算平台很好兼容等优点, 深受众多开发人 员和研究人员的喜爱. <Keras深度学习实战>结合大量实例,简明扼要地介绍了目前热门的神经网络技术和深度学习技术 .从经典的多层感知机到用于图像处理的深度卷积网络,从处理序列化数据的循环网络到伪造仿真数据的生成对抗网络,从词嵌入到AI 游戏应用中的强化学习,引领一层一层揭开深度学习的面纱, 并在逐渐清晰的理论框架下,

Linux 桌面玩家指南:15. 深度学习可以这样玩

特别说明:要在我的随笔后写评论的小伙伴们请注意了,我的博客开启了 MathJax 数学公式支持,MathJax 使用$标记数学公式的开始和结束.如果某条评论中出现了两个$,MathJax 会将两个$之间的内容按照数学公式进行排版,从而导致评论区格式混乱.如果大家的评论中用到了$,但是又不是为了使用数学公式,就请使用\$转义一下,谢谢. 想从头阅读该系列吗?下面是传送门: Linux 桌面玩家指南:01. 玩转 Linux 系统的方法论 [约 1.1 万字,22 张图片] Linux 桌面玩家指南

一天搞懂深度学习--李宏毅教程分享

原标题:[286页干货]一天搞懂深度学习(台湾资料科学年会课程) 本文是2016 台湾资料科学年会前导课程"一天搞懂深度学习"的全部讲义PPT(共268页),由台湾大学电机工程学助理教授李宏毅主讲.作者在文中分四个部分对神经网络的原理.目前存在形态以及未来的发展进行了介绍.深度学习的每一个核心概念在文中都有相关案例进行呈现,通俗易懂.一天的时间搞懂深度学习?其实并不是没有可能. 深度学习 ( Deep Learning ) 是机器学习 ( Machine Learning ) 中近年来

深度学习框架keras平台搭建(关键字:windows、非GPU、离线安装)

当下,人工智能越来越受到人们的关注,而这很大程度上都归功于深度学习的迅猛发展.人工智能和不同产业之间的成功跨界对传统产业产生着深刻的影响. 最近,我也开始不断接触深度学习,之前也看了很多文章介绍,对深度学习的历史发展以及相关理论知识也有大致了解. 但常言道:纸上得来终觉浅,绝知此事要躬行:与其临渊羡鱼,不如退而结网.因此决定自己动手玩一玩. 对比了当下众多流行框架的优缺点,以及结合自身硬件条件,最后选定keras框架作为入手点. 作为大多数人都习惯于Windows系统,此外由于GPU比较昂贵,本

深度学习中的Data Augmentation方法(转)基于keras

在深度学习中,当数据量不够大时候,常常采用下面4中方法: 1. 人工增加训练集的大小. 通过平移, 翻转, 加噪声等方法从已有数据中创造出一批"新"的数据.也就是Data Augmentation 2. Regularization. 数据量比较小会导致模型过拟合, 使得训练误差很小而测试误差特别大. 通过在Loss Function 后面加上正则项可以抑制过拟合的产生. 缺点是引入了一个需要手动调整的hyper-parameter. 详见 https://www.wikiwand.c

DeepLearning tutorial(6)易用的深度学习框架Keras简介

之前我一直在使用Theano,前面五篇Deeplearning相关的文章也是学习Theano的一些笔记,当时已经觉得Theano用起来略显麻烦,有时想实现一个新的结构,就要花很多时间去编程,所以想过将代码模块化,方便重复使用,但因为实在太忙没有时间去做.最近发现了一个叫做Keras的框架,跟我的想法不谋而合,用起来特别简单,适合快速开发.(其实还有很多其他的深度学习框架都是比较容易用的.) 1. Keras简介 Keras是基于Theano的一个深度学习框架,它的设计参考了Torch,用Pyth

深度学习框架哪家强:TensorFlow?Caffe?MXNet?Keras?PyTorch?

深度学习框架哪家强:TensorFlow?Caffe?MXNet?Keras?PyTorch?对于这几大框架在运行各项深度任务时的性能差异如何,各位读者不免会有所好奇. 微软数据科学家Ilia Karmanov最新测试的结果显示,亚马逊MXNet在CNN.RNN与NLP情感分析任务上性能强劲,而TensorFlow仅擅长于特征提取. 测试详情更新在Ilia Karmanov的GitHub项目DeepLearningFrameworks(https://github.com/ilkarman/De