浅析android OCR文字识别

这学期有门课程老师要求用JAVA实现一个OCR文字识别的程序，所以就花了一些时间研究了一下在安卓端如何实现

OCR的引擎是用的开源项目tesseract-ocr 这个安卓版的地址：https://code.google.com/p/tesseract-android-tools/

但是自己在编译的时候老是出错，于是在网上寻找到了别人编译好安卓可用的tess-two导入到项目中（参考文章地址 http://www.cnblogs.com/hangxin1940/archive/2012/01/13/2321507.html）

自己尝试做了拍照识别和从相册选择图片识别

但是手机运算能力太差，图片太大、分辨率太高的话，识别时间会很长，所以在选取图片的时候调用了系统裁剪功能，并且另开线程来处理识别。

推荐测试的时候不要用太大的图片。

同组的队友用java写了图片的预处理，所以拿过来试试能否提高识别成功率

无奈安卓无法使用java.awt里面的包，所以还费了一些时间替换成android.graphics中的一些类实现相同功能。

测试发现灰度化后是能提高一些识别率，在电脑上灰度化后再用三个算法二值化后还能进一步提高识别率

但在手机上用大津法、最大熵法进行二值化花费时间太久（几乎没算成功），所以后来这两个方法就没有调用，而只用迭代法二值化效果不理想。

识别需要用到语言包，需要放置在SD卡根目录。（我只下载了简体中文和英文的语言包）

下面是几张识别截图（前两张是识别的手机照片，后一张是识别的示例图片）：

最后的效果是，能识别一些比较规整的文字，照片的话最好只裁剪文字部分去识别（而且要照的比较清晰）。

也能识别一些简单的英文、数字验证码。

识别有待提高，速度也有待提高。

下面是源代码，语言包等下载地址：

CSDN下载

百度网盘下载

tessdata是语言包需要放到手机SD卡根目录
tess-two是OCR引擎（是基于3.01版编译的，现在已经有3.02版本了），需要导入到项目中（项目中已经导入）

浅析android OCR文字识别

时间： 2024-07-31 01:58:57

浅析android OCR文字识别的相关文章

ABBYY FineReader Engine泰比OCR文字识别控件桌面版说明

FineReader Engine用于开发ocr文字识别软件和图片识别软件,提供自己的OCR API, 包括光学字符识别(OCR).智能字符识别(ICR).光标识别(OMR).光学条码识别(OBR).文档图片.PDF转换技术和图像识别技术. 新的泰比(ABBYY)FineReader Engine 10将使你体会到非同一般的OCR文字识别软件质量和可用性: 选择泰比(ABBYY)FineReader Engine 10,将获得无与伦比的准确性.更高的ocr技术的质量和速度.与众不同的功能性以及

精品软件推荐 ABBYY FineReader 世界排名第一的 OCR 文字识别工具

ABBYY FineReader 是世界排名第一的 OCR 文字识别工具,提供高效和精准的文档识别.数据提取解决方案,支持多国字符和彩色文件识别,主要用于将扫描图像.图片型PDF转化成可编辑的文本. ABBYY FineReader 可以看作是超级无敌的 PDF 转换器,能转换任意类型的 PDF,其他 PDF 转换工具.或清华紫光OCR.尚书七号.汉王OCR等在它面前都可谓是浮云.比较常用的功能为:扫描到 Word.将PDF/图像.图片转换为 Word 文档或者可编辑/可搜索的PDF文档,另外也

ocr文字识别软件ABBYY FineReader介绍

ABBYY是世界文档识别.数据捕获和语言软件技术开发商的领航者.其获奖产品 FineReader OCR 软件可以把静态纸文件和 PDF 文件转换成可编辑可管理的电子文档形式,可以大大节省您的时间和精力. 理想的 OCR (Optical Character Recognition) .PDF 转换应用软件,不但提供高识别率,而且可以精确地保留原始设置和版面布局,可以把静态纸文件和 PDF 文件转换成可管理的电子格式!它可以将通过扫描仪.MFP 或数码相机生成的图像.PDF 文件,进行快速转换为

OCR文字识别软件拆分对页和校正文本方向的教程

在使用ABBYY FineReader Pro for Mac OCR文字识别软件转换文档的时候,如果检测到的已识别文本片段方向错误,或片段的文本反转,表示片段中可能包含大量错误,那么应该怎样正确地识别此类文本呢?本文为大家详细讲解. 要正确识别此类文本: 1.在"图像"窗口中选择含有竖排区域或反转文本的表格单元格. 2.单击主工具栏中的"检查器",然后单击"区域检查器"按钮. 在"文本属性"面板中: ?在"反向&q

怎么给OCR文字识别软件设置正确的扫描分辨率

ABBYY FineReader 12是一款专业的OCR文字识别软件,可快速方便地将扫描纸质文档.PDF文件和数码相机的图像转换成可编辑.可搜索的文本,不仅支持对页扫描,还支持多页扫描,扫描分辨率的选取是比较重要的一项操作,分辨率选择得不好,将直接影响扫描结果,那么ABBYY FineReader该如何选择正确的扫描分辨率呢? 通常情况下,ABBYY FineReader建议的扫描分辨率为 300 dpi. 重要事项!当垂直分辨率和水平分辨率相同时,FineReader可以提供最佳的OCR效果.

OCR文字识别软件：数字信息化不可或缺的重要组成部分

OCR文字识别技术,是在国家"863"计划国家自然科学基金长期支持下,清华大学电子工程系智能图文信息处理研究室汉字识别研究工作的基础上开发完成的.该软件能够快速地将印刷的文档转化为可供阅读和可编辑的高质量电子文档,进而将电子文档应用到各类数据库.电子出版物.数字图书馆.网络资源等新型资源的建设和再版图书生产中,是行业数字信息化不可或缺的重要组成部分. 主要功能模块 OCR文字识别软件识别核心 OCR文字识别软件内置高性能文字识别引擎,中文识别率达99.8%以上.英文.日文.韩文的识别率

怎么提高OCR文字识别软件的识别正确率

在OCR文字识别软件当中,ABBYY FineReader是比较好用的程序之一,但再好的识别软件也不能保证100%的识别正确率,用户都喜欢软件的正确率高一些,以减轻识别后修正的负担,很多用户也都提过这样的问题,今天就为大家讲讲如何提高ABBYY FineReader的识别正确率(这里以ABBYY FineReader 12为例). 1.打开ABBYY FineReader 12主界面,找到"文档语言",在满足条件的情况下选择尽可能少的语言,这样就可以降低识别产生的错误. 2.选定合适的

OCR文字识别技术的用处

图片文字识别软件ABBYY FineReader是现在办公室的必备软件,它可以识别JPG.GIF.PNG.BMP.TIF和PDF源文件.PDF扫描件,也就是说我们在日常工作中能够遇到的不能编辑的文字都可以通过ABBYY FineReader图片文字识别软件来识别,识别得到的文字可以自由的进行编辑.有很多人有这样的疑问,图片文字识别软件的技术原理是什么呢? 1.图文输入:是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化.现在用得比较普遍的设备是扫描仪.文档图像的扫描质量是OCR软件正确