Java OCR(使用Tess4J)

最近突然对手机上的OCR功能比较感兴趣,于是乎研究了一下Java OCR技术,在Google上找到了tesseract-ocr,最后找到了其对应的Java API版本 Tess4J,中间调试过程异常曲折,最后花了半天时间终于把它给调试成功了,跟大家分享一下!

一 下载相关的jar包

1.下载Tess4J jar,网址:http://sourceforge.net/projects/tess4j/

2.如果你使用的JVM 64位的,还需要下载 liblept168.dll、libtesseract302.dll的64位文件,下载地址:https://github.com/charlesw/tesseract/tree/master/src/lib/TesseractOcr/x64

二 项目整合

先看看最后整合成功的目录结构,开发环境:Win8.1 64位 + Eclipse 4.2 + JDK 7 64位,工程目录结构如下:

src目录下是 Tess4J的源码目录,test目录 是Tess4J官方提供的demo目录,并将 liblept168.dll、libtesseract302.dll,gsdll64.dll(pdf转换需要用到此文件) 三个文件拷贝到 src根目录下。

三 测试代码

[java] view plaincopy

  1. /**
  2. * Test of doOCR method, of class Tesseract1.
  3. */
  4. @Test
  5. public void testDoOCR_File() throws Exception {
  6. System.out.println("doOCR on a PNG image");
  7. File imageFile = new File("eurotext.png");
  8. String expResult = "The (quick) [brown] {fox} jumps!\nOver the $43,456.78 <lazy> #90 dog";
  9. String result = instance.doOCR(imageFile);
  10. System.out.println(result);
  11. assertEquals(expResult, result.substring(0, expResult.length()));
  12. }

Demo下载地址:http://download.csdn.net/detail/fx_sky/7988469

时间: 2024-10-22 03:17:08

Java OCR(使用Tess4J)的相关文章

Java OCR tesseract 图像智能字符识别技术 Java代码实现

Java OCR tesseract 图像智能字符识别技术 Java代码实现 接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码实现的,下面给大家分享下java实现的例子. 拿代码扫描上面的图片,然后输出结果.主要思想就是利用Java调用系统任务. 下面是核心代码: Java OCR tesseract 图像智能字符识别技术 Java代码实现

Java OCR tesseract 图像智能字符识别技术 Java实现

Java OCR tesseract 图像智能字符识别技术 Java代码实现 接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码实现的,下面给大家分享下java实现的例子. 拿代码扫描上面的图片,然后输出结果.主要思想就是利用Java调用系统任务. 下面是核心代码: /** * * * @author mjorcen * @email [email protected] * @dateTime Jun 19, 2014 3:

Java OCR tesseract 图像智能字符识别技术

公司有需求啊,所以就得研究哈.近期公司须要读验证码.于是就研究起了图像识别.应该就是传说中的(OCR:光学字符识别OCR),以下把今天的收获整理一个给大家做个分享. 本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/.不为别的,谁让它支持我们的天朝的文字呢~哈 下载好程序后解压: 大概能够看到这样一个文件夹.别见怪楼主里面一堆測试文件. 然后就開始我们的測试之旅: tesseract的使用方法: 參数1:须要识别的文件 參数

Java OCR 图像智能字符识别技术,可识别中文

http://blog.csdn.net/zhoushuyan/article/details/5948289 验证码的OCR方式识别 http://ykf.iteye.com/blog/212431 几天一直在研究OCR技术,据我了解的情况,国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR技术发现好多对英文与数字的支持都很好,可惜很多都不支持中文字符.Asprise-OCR,Tesseract 3.0以前的版本,都不支持中文,其实我用了下Asprise-OCR算是

【Java学习笔记】2015.1.6 tesseract_orc java上的一种实现方法

今天想着把以前做过的一个Android的文字检测识别应用好好的回顾一下,因为以前写java程序,目的就是能用就行,不会仔细看每一个部分代码,也不会记他们的用法,不回会去查API,借鉴别人的例程,用过就忘了,现在想着要改变,于是就回顾了一番. 之前检测用到的是Tesseract_OCR,之所以能在Android的上运行,是因为黑暗伯爵大神已经把tess-two(为android写的tesseract-tools)编译好了,然后我直接用的.我还是小白,完全不懂编译那些,如果让我自己搞.... 反正最

Java爬虫工程师技能列表

以下仅仅是自己一些粗浅认识.欢迎补充指正.欢迎进群交流! 掌握一半便能够熟练的开发爬虫玩了.自己正在努力中... 1.掌握java.尤其编程网络部分:李刚的java基础至少看了三遍以上: 2.熟悉html.js. ajax.firedebug3.网页去重.找到网站特点4.分布式5.多线程6.一种关系型数据库mysql/oraclelserver/mybatis7.正则表达式.css selector. xpath8.DNS cache9.TCP/IP/Http协议tp2.010.web登录协议

Java爬虫工程师技能列表【转】

掌握一半便能够熟练的开发爬虫玩了.自己正在努力中... 一.技能列表.掌握java.尤其编程网络部分:李刚的java基础至少看了三遍以上: 2.熟悉html.js. ajax.firedebug3.网页去重.找到网站特点4.分布式5.多线程6.一种关系型数据库mysql/oraclelserver/mybatis7.正则表达式.css selector. xpath8.DNS cache9.TCP/IP/Http协议tp2.010.web登录协议 10. SSO.OAuth原理 11.反爬策略1

Jmeter—实现识别验证码登录

在做自动化测试或压力测试时,验证码总是一个问题.在以往的压力测试经历中,测试一般在独立的测试环境中进行,可以放心禁用验证码或使用万能验证码,这个是最实用的.但是,这两天我尝试了一个使用第三方的图形图像识别工具来完成验证码识别并通过Jmeter完成登录的过程,识别工具的识别成功率有限,因此本篇估计仅能在理论范围内适用. 本篇内容大部分内容来自于该作者的文章:http://blog.csdn.net/xreztento/article/details/48682923 总体目的:给Jmeter写一个

Java 如何使用 OCR 技术识别验证码实现自动化登陆

如论实施敏捷的团队,或者实施 DevOps 的团队,通过自动化测试提高测试效率和软件质量都是其共同的选择.UI 自动化测试是自动化化测试当中的重要环节,在 UI 自动化测试中验证码识别一直是令自动化测试人员头疼的问题.今年来随着 OCR 技术.人工智能计算机视觉(AI Computer Vision)技术的成熟与使用大大提高了验证码的识别成功率.从而使得自动识别验证码自动化登陆目标系统成为可能. 本 Chat 主要内容包括: OCR 技术与人工智能计算机视觉(AI Computer Vision