集美大学教务处验证码识别(一)

【原创,转载请标明作者:森狗】

集美大学验证码分2种,一种是学生登入用的验证码,一种是管理员后台的验证码。如下图:

(学生登入验证码)

http://www.cnblogs.com/sendog/p/5568618.html

(管理员登入验证码)

对于第一种验证码,因为我在答辩时候提到如何解析验证码然后穷举教务处破解后,今天已经被换成新的款式验证码了,第二种暂时还没换,估计不久后也会换了。(怪我)

本文将用2中不同的方法识别2种验证码。

一、先讲第一种

1.去除淡色噪点

    public static void sysout(BufferedImage img) throws IOException{
        int height = img.getHeight();
        int width = img.getWidth();
        for (int x = 0; x < width; ++x) {
            for (int y = 0; y < height; ++y) {
                int color = getC(img.getRGB(x, y));
                if(color>300){
                    img.setRGB(x, y, Color.WHITE.getRGB());
                }
                //System.out.println(x+":"+y+":"+color);
            }
        }
        ImageIO.write(img, "gif", new File("C:/Users/Mr.wu/Desktop/验证码2/ss1.gif"));
    }

主要是这个color>300  300这个阀值的控制。通过打印一个个位点对比颜色,就可以发现淡色的color值是大于300的

    public static int getC(int colorInt){
        Color color = new Color(colorInt);
        return (color.getRed() + color.getGreen() + color.getBlue());
    }

经过这一步处理后的验证码如下图:

就只剩下深颜色的噪点了。

2.深颜色的噪点我们可以通过它的上下左右噪点是白色的来去除。直接上代码:

    public static void surround(BufferedImage img)throws IOException{
        int height = img.getHeight();
        int width = img.getWidth();

        for (int x = 1; x < width-1; ++x) {
            for (int y = 1; y < height-1; ++y) {
                int s = img.getRGB(x, y-1);
                int r = img.getRGB(x, y+1);
                int z = img.getRGB(x-1, y+1);
                int l = img.getRGB(x+1, y+1);

                int white = Color.WHITE.getRGB();
                if(s==white && r==white && z==white && l==white){
                    img.setRGB(x, y, Color.WHITE.getRGB());
                }
            }
        }
        ImageIO.write(img, "gif", new File("C:/Users/Mr.wu/Desktop/验证码2/ss2.gif"));
    }

这步处理后的验证码如下:

3.之后我们再简单处理一下,就是切割掉外围图片的内边距,只剩下主体验证码。

    public static void splitPhoto(BufferedImage img) throws IOException{
        BufferedImage newImg = img.getSubimage(7, 4, 33, 12);
        ImageIO.write(newImg, "gif", new File("C:/Users/Mr.wu/Desktop/验证码2/ss3.gif"));
    }

处理结果:

4.二值化处理

    public static void black(BufferedImage img) throws IOException{
        int height = img.getHeight();
        int width = img.getWidth();
        int white = Color.WHITE.getRGB();
        for (int x = 0; x < width; ++x) {
            for (int y = 0; y < height; ++y) {
                if(img.getRGB(x, y)!=white){
                    img.setRGB(x, y, Color.black.getRGB());
                }
            }
        }
        ImageIO.write(img, "gif", new File("C:/Users/Mr.wu/Desktop//验证码2/ss4.gif"));
    }

这边二值化只要把除了白色的以外的颜色全部设置为黑色就行了,结果如下

=================================

处理到这步后需要对验证码进行切割,收集0~9的字符,之后可以让验证码一个个字符与收集的0~9字符对比,相似度最高的就是对应的数值

5.收集验证码字符

    //分割图片
    public static void splitImage(String picFile)
            throws Exception {
        BufferedImage img = ImageIO.read(new File(picFile));
        BufferedImage img1 = img.getSubimage(0, 0, 7, 12);
        BufferedImage img2 = img.getSubimage(8, 0, 7, 12);
        BufferedImage img3 = img.getSubimage(18, 0, 7, 12);
        BufferedImage img4 = img.getSubimage(26, 0, 7, 12);
        ImageIO.write(img1, "gif", new File("C:/Users/Mr.wu/Desktop/验证码2/img/1.gif"));
        ImageIO.write(img2, "gif", new File("C:/Users/Mr.wu/Desktop/验证码2/img/2.gif"));
        ImageIO.write(img3, "gif", new File("C:/Users/Mr.wu/Desktop/验证码2/img/3.gif"));
        ImageIO.write(img4, "gif", new File("C:/Users/Mr.wu/Desktop/验证码2/img/4.gif"));
    }  

6.拿第4步的验证码来和第5步收集的验证码对比

    public static void main(String[] args) throws Exception {
        String picFile = "C:/Users/Mr.wu/Desktop/验证码2/ss4.gif";
        Map<BufferedImage, String> map = loadTrainData();
        List<BufferedImage> listImg = splitImage(picFile);
        String result = "";
        for (BufferedImage bi : listImg) {
            result += getSingleCharOcr(bi, map);
        }
        System.out.println(result);

    }

    public static List<BufferedImage> splitImage(String picFile)
            throws Exception {
        BufferedImage img = ImageIO.read(new File(picFile));
        List<BufferedImage> subImgs = new ArrayList<BufferedImage>();
        subImgs.add(img.getSubimage(0, 0, 7, 12));
        subImgs.add(img.getSubimage(8, 0, 7, 12));
        subImgs.add(img.getSubimage(18, 0, 7, 12));
        subImgs.add(img.getSubimage(26, 0, 7, 12));
        return subImgs;
    }  

    public static Map<BufferedImage, String> loadTrainData() throws Exception {
        Map<BufferedImage, String> map = new HashMap<BufferedImage, String>();
        File dir = new File("C:/Users/Mr.wu/Desktop/验证码2/img/1");
        File[] files = dir.listFiles();
        for (File file : files) {
            map.put(ImageIO.read(file), file.getName().charAt(0) + "");
        }
        return map;
    }

    public static String getSingleCharOcr(BufferedImage img,
            Map<BufferedImage, String> map) {
        String result = "";
        int width = img.getWidth();
        int height = img.getHeight();
        int min = width * height;
        for (BufferedImage bi : map.keySet()) {
            int count = 0;
            Label1: for (int x = 0; x < width; ++x) {
                for (int y = 0; y < height; ++y) {
                    if (isWhite(img.getRGB(x, y)) != isWhite(bi.getRGB(x, y))) {
                        count++;//不同的
                        if (count >= min)
                            break Label1;
                    }
                }
            }
            if (count < min) {
                min = count;
                result = map.get(bi);
            }
        }
        System.out.println(result);
        return result;
    }

    public static int isWhite(int colorInt) {
        Color color = new Color(colorInt);
        if (color.getRed() + color.getGreen() + color.getBlue() > 100) {//黑色为0 白色765
            return 1;
        }
        return 0;
    }

输出结果:

时间: 2024-10-12 22:35:59

集美大学教务处验证码识别(一)的相关文章

集美大学教务处验证码识别(二)

[原创,转载请标明作者:森狗] 本文对第二种验证码,即管理员登入后台地址的验证码进行识别. 1.采集一些验证码,0~9都要有 2.观察验证码,用画图工具即可. 观察可发现,噪点即阴影,此处的阴影就是颜色比主体验证码略淡,以此为突破口. 3.去除噪点 color.getGreen() 获取绿色的值int,绿色值(0~255 从深到浅),大于200的就是浅色的噪点 public static int isWhite(int colorInt) { Color color = new Color(co

东大教务处验证码破解

东北大学教务处编的很烂,一点鼠标键,它就着急拉慌说:"不当的拷贝会损坏您的系统".东大教务处的验证码是最简单的那一种,形同虚设,很易破解. 一.东大教务处验证码特点概述 先上几张图片,. 字符集 a-zA-Z0-9共26+26+10=62个字符 字符位置 四种,如果四个字符一模一样,这四个字符之间的间距是固定的,即第一个与第二个,第二个与第三个,第三个与第四个之间的距离都是一样的. 字符形状 字符形状始终是一样的,不同位置的同一字符可以通过平移来生成. 上面这些规律可以通过大量获取验证

车牌识别及验证码识别的一般思路

http://www.pin5i.com/showtopic-22246.html 描述一下思路及算法. 全文分两部分,第一部分讲车牌识别及普通验证码这一类识别的普通方法,第二部分讲对类似QQ验证码,Gmail验证码这一类变态验证码的识别方法和思路. 一.车牌/验证码识别的普通方法 车牌.验证码识别的普通方法为: (1)      将图片灰度化与二值化 (2)      去噪,然后切割成一个一个的字符 (3)      提取每一个字符的特征,生成特征矢量或特征矩阵 (4)      分类与学习.

常见验证码的弱点与验证码识别

http://drops.wooyun.org/tips/141 常见验证码的弱点与验证码识别 insight-labs · 2013/06/08 11:36 0x00 简介 验证码作为一种辅助安全手段在Web安全中有着特殊的地位,验证码安全和web应用中的众多漏洞相比似乎微不足道,但是千里之堤毁于蚁穴,有些时候如果能绕过验证码,则可以把手动变为自动,对于Web安全检测有很大的帮助. 全自动区分计算机和人类的图灵测试(英语:Completely Automated Public Turing t

基于python语言的tensorflow的‘端到端’的字符型验证码识别源码整理(github源码分享)

基于python语言的tensorflow的‘端到端’的字符型验证码识别 1   Abstract 验证码(CAPTCHA)的诞生本身是为了自动区分 自然人 和 机器人 的一套公开方法, 但是近几年的人工智能技术的发展,传统的字符验证已经形同虚设. 所以,大家一方面研究和学习此代码时,另外一方面也要警惕自己的互联网系统的web安全问题. Keywords: 人工智能,Python,字符验证码,CAPTCHA,识别,tensorflow,CNN,深度学习 2   Introduction 全自动区

【原创】用C#.NET开发通用的验证码识别组件

相信大家在开发过程中,基本都用到过验证码识别程序.一提到验证码识别,绝大多数兄弟想到的都是用C++的效率配上牛逼哄哄的二值化.边缘检测等算法来实现.但这种识别方式的依赖性太强,不可重用,无法扩展,假设对方稍微修改下验证码的变形算法(做过网站的都知道有多简单),可能你累死累活搞出来的识别程序就全部作废了. 这里讲个我们公司的例子,为了识别支付宝登录的验证码,公司花大价钱请了一位牛人B用C++写了个支付宝验证码识别的DLL并做了导出,供我们在.NET平台下直接调用.当我们项目开发快结束的时候,这货竟

验证码识别

  本文所使用的验证码识别的方法非常暴力,高手可忽略.对于在客户端实现的“伪验证码”或使用静态图片的验证码,本文不作讨论.对于验证码的识别,一直以为,只要足够的样本,就可以分析出验证码的特征,从而进行分门别类,再通过和样本做比较,就可以得出正确验证码.这里简单而暴力的验证一下这个一直想验证而没有行动过的想法.做实验的网站是某体检机构,因为它生成的验证码很有规律(不确定是不是静态文件,但就可以当成是算法随机生成的),每个字符的位置相对固定,虽然每个字符的颜色和背景都不一样,但是背景颜色很相近,没有

使用Tesseract-OCR 做验证码识别浅析

使用工具jTessBoxEditor-0.7(这个是在java平台下开发的,所以 它只支持java平台 ,在使用前应该先配置好java环境) tesseract 程序集(因为该程序集是在.net 2.0平台下 开发的,所以 只能支持到2.0 在使用时请注意(也可以自己去网上找别人用更高的版本编译好的)) tesseract-ocr-setup-3.01-1  使用开发语言.net 辅助工具 Visual Studio 至少能支持.net 2.0即可 首先,我们要找到自己需要做验证识别的验证码图片

.NET 开发的-服务于企业,个人用户群的打杂平台-可定制数据采集,刷单抢购,验证码识别各类插件

今天,想给大家介绍下自己做的一个小的插件管理平台,大白鲨智软平台,这不算什么高科技的东西,暂时还是个封闭的插件定制平台 没有提供开发相关的API接口,和开发工具,不过后面会加上去,以我多年的脚本引擎使用和开发经验,撸这个功能上去不会太久^_^ 先上张截图 上班几年专注数据采集平台研发也有日子了,现在成了SOHO,一直想做一个生态圈的数据采集验证码识别的小平台,目前平台看起来是封闭状态的,但是设计上是可以扩展到提供 脚本引擎+API扩展方式来让人轻松愉悦的进行数据采集的小插件开发中,当然,这并不是