Java OCR tesseract 图像智能字符识别技术

公司有需求啊,所以就得研究哈。近期公司须要读验证码。于是就研究起了图像识别。应该就是传说中的(OCR:光学字符识别OCR),以下把今天的收获整理一个给大家做个分享。

本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/。不为别的,谁让它支持我们的天朝的文字呢~哈

下载好程序后解压:

大概能够看到这样一个文件夹。别见怪楼主里面一堆測试文件。

然后就開始我们的測试之旅:

tesseract的使用方法:

參数1:须要识别的文件

參数2:输出的文件名,输出的是文本文件。里面保存了识别的信息

识别英文这两个參数就能够了。以下做个实验:

我们在命令行输入:tesseract 5.jpg 6 ,能够看到程序生成了一个6.txt ,里面保存着识别后的文本,怎么样简单又给力~

上面说道tesseract 是支持中文的,所以么,接下来看看怎样使用tesseract 实现我们中文的识别,以下继续介绍其它參数

參数3:-l

參数4: 使用的语言库

參数3 -l应该是知道參数4所使用的语言库,默认英文,也就是为什么上面识别英文的样例,并没有输入參数3和參数4。也实现了识别。

以下继续我们的实验:

我们准备了一张图片,然后使用tesseract zhongwen.jpg  7  -l chi_sim 指明了中文语言,然后效果图上,还是非常不错的,毕竟我们的中文是如此的博大精深。而且tesseract能够经过训练,然后识字的能力就会大幅度提升。

好了,因为一行代码没写,就不上传代码了,大家自己去官网下载。接下来我会使用Java带大家实现这种小程序。

假设这篇文章对你实用。就赞一个~欢迎大家留言,多交流~

时间: 2024-10-18 21:47:16

Java OCR tesseract 图像智能字符识别技术的相关文章

Java OCR tesseract 图像智能字符识别技术 Java代码实现

Java OCR tesseract 图像智能字符识别技术 Java代码实现 接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码实现的,下面给大家分享下java实现的例子. 拿代码扫描上面的图片,然后输出结果.主要思想就是利用Java调用系统任务. 下面是核心代码: Java OCR tesseract 图像智能字符识别技术 Java代码实现

Java OCR tesseract 图像智能字符识别技术 Java实现

Java OCR tesseract 图像智能字符识别技术 Java代码实现 接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码实现的,下面给大家分享下java实现的例子. 拿代码扫描上面的图片,然后输出结果.主要思想就是利用Java调用系统任务. 下面是核心代码: /** * * * @author mjorcen * @email [email protected] * @dateTime Jun 19, 2014 3:

Java OCR 图像智能字符识别技术,可识别中文

http://blog.csdn.net/zhoushuyan/article/details/5948289 验证码的OCR方式识别 http://ykf.iteye.com/blog/212431 几天一直在研究OCR技术,据我了解的情况,国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR技术发现好多对英文与数字的支持都很好,可惜很多都不支持中文字符.Asprise-OCR,Tesseract 3.0以前的版本,都不支持中文,其实我用了下Asprise-OCR算是

OCR光学字符识别技术是AI人工智能的基础

现在很多款手机软件都集成了OCR光学字符识别技术(Optical Character Recognition),可以通过手机拍照或摄像头扫描,就可自动识别并提取出所拍摄图像中的数据信息,比如:当我在看英语书的时候,遇到不懂的单词或想直接知道该段英文的翻译,那么可以直接使用手机上集成了OCR的自动识别软件,进行拍照识别或是扫描识别,然后会直接给出识别结果,识别准确率也很高. 这种集成了OCR的识别技术,被成为文字识别OCR技术. 目前,文字识别技术应用在教育教学.报纸报刊.图书馆.新闻媒体等领域,

【OCR技术系列之一】字符识别技术总览

最近入坑研究OCR,看了比较多关于OCR的资料,对OCR的前世今生也有了一个比较清晰的了解.所以想写一篇关于OCR技术的综述,对OCR相关的知识点都好好总结一遍,以加深个人理解. 什么是OCR? OCR英文全称是Optical Character Recognition,中文叫做光学字符识别.它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受.人又可以理解的格式.文字识别是计算机视觉研究领域的分支之一,而且这个课题已经是比较成熟了,并且在商业中已经有很多落地项

OCR光学字符识别技术,改变传统工作模式

自2015年以来,国内"三证合一"登记制度改革如火如荼的进行,国务院.有关部门及税务总局陆续下发了一系列文件,对"三证合一"改革有关工作做出了详细部署并提出了明确要求.到2015年底全国发出了350.94万张"三证合一"的营业执照,已取得显著效果.同时伴随着企业实名制验证等问题也随之而来,因此也衍生出一些软件代替人去识别证件内的信息并将信息提取出来. OCR光学字符识别技术是基础--针对移动互联网数据采集业务推出了OCR识别软件,例如可以识别营业

移动端车牌识别,OCR光学字符识别技术

移动端车牌识别技术,是在OCR光学字符识别技术的基础上研发的用来识别汽车号牌特征信息的图像识别技术.在国内,该项技术由北京易泊时代携手清华大学成功地将"国家863计划"项目成果--"文字图像识别技术TH-OCR"产业化,真正实现了TH-OCR技术与市场应用的完美结合. 一.移动端车牌识别应用背景 随着我国警务通.停车场手持收费机等移动终端的使用越来越普及,车辆越来越多,对车的管理要高效也是必然的,如果在这些终端上能够集成车牌识别功能,必然省时省力,对于维护交通安全和

Java OCR(使用Tess4J)

最近突然对手机上的OCR功能比较感兴趣,于是乎研究了一下Java OCR技术,在Google上找到了tesseract-ocr,最后找到了其对应的Java API版本 Tess4J,中间调试过程异常曲折,最后花了半天时间终于把它给调试成功了,跟大家分享一下! 一 下载相关的jar包 1.下载Tess4J jar,网址:http://sourceforge.net/projects/tess4j/ 2.如果你使用的JVM 64位的,还需要下载 liblept168.dll.libtesseract

服务器端车牌智能识别,让车辆管理更智能的技术~

何为服务器端车牌智能识别呢,下面给代价简单介绍下: 服务器端车牌智能识别是一款基于服务器平台的车牌OCR识别服务程序,企业可将该识别服务部署在自有服务器上(云服务器或本地服务器),部署完成后,APP端.PC客户端.web端.微信H5端等均可发送识别请求,通过Web Service接口调用该识别服务,上传车牌图像在服务器端完成识别后,返回标准XML识别结果,整个识别过程均在企业内网完成,保证数据的安全性.服务器端车牌智能识别技术相比移动端OCR SDK具有部署简单.更新维护方便.应用平台更广等明显