集成利用tesseract.exe进行ocr

ocr是一个宽泛的概念。市场上面ocr将一直是一个不断发展、需求强烈的方向。

我认为,从难度上区分,中文ocr难于英文ocr;手写ocr难于印刷ocr。所以两两组合,中文手写体最难(比如毛体,有一些人都识别不了);而英文(数字)印刷体ocr最简单,对于最简单的东西,我认为就可以直接使用tesseract,它本身就是集成了对英文(数字)的识别。将这个功能集成起来,甚至是研究其开源实现,将其融合起来。

下载http://uniontesting.com/thread-32030-1-1.html

比较详细的介绍来自于:http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html

如果采用命令行的方式集成,核心代码,可以达到一定的效果:

 private void button1_Click(object sender, EventArgs e)
        {
            string filePath = @"tesseract.exe";
            string paramstr = @"bbb3.jpg r";
            System.Diagnostics.Process.Start(filePath,paramstr);

        }

通过 http://blog.csdn.net/fengbingchun/article/details/8493877可以了解到,可以直接采用api的方式对该ocr进行调用,那么融合的程度就进一步提高了!并且可以结合opencv 进行一些同步并行的处理.

时间: 2024-10-11 11:17:17

集成利用tesseract.exe进行ocr的相关文章

Python中利用Tesseract软件来识别图片中的英文与中文

OCR与Tesseract介绍   将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制. Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司).Tesseract 是目前公认最优秀.最精确的开源OCR 系统. 除了极高的精确度,Tesseract 也具有很高的灵活性.它

Tesseract 3.02 OCR文字识别调查记录

安装使用: Tesseract下载地址 https://code.google.com/p/tesseract-ocr/ 目前最新版本为3.02 windows版下载解压后,使用命令行,进入解压后目录运行 命令格式: Usage:tesseract.exe imagename outputbase [-l lang] [-psm pagesegmode] e...] pagesegmode values are: 0 = Orientation and script detection (OSD

利用wsdl.exe生成webservice代理类

根据提供的wsdl生成webservice代理类 1.开始->程序->Visual Studio 2005 命令提示 2.输入如下红色标记部分 D:/Program Files/Microsoft Visual Studio 8/VC>wsdl /language:c# /n:TestDemo /out:d:/Temp/TestService.cs D:/Temp/TestService.wsdl 在d:/Temp下就会产生一个TestService.cs 文件 注意:D:/Temp/T

解析利用wsdl.exe生成webservice代理类的详解

利用wsdl.exe生成webservice代理类:根据提供的wsdl生成webservice代理类1.开始->程序->Visual Studio 2005 命令提示2.输入如下红色标记部分D:/Program Files/Microsoft Visual Studio 8/VC>wsdl /language:c# /n:TestDemo /out:d:/Temp/TestService.cs D:/Temp/TestService.wsdl在d:/Temp下就会产生一个TestServ

利用AForge+Tesseract制作视频OCR程序

先上界面: 实现功能及流程: 1:从摄像头获取图像,框选要识别的区域 2:对选区进行图像处理,方便识别 3:识别文字 4:获取芯片上的内容(使用客户提供的芯片解码程序) 5:比较两个内容是否一致 6:写入数据库(带图片) 7:对历史数据进行查阅.导出Word(导出时带图片) 此版本将4~7功能去除了 获取图像: 使用AForge组件(参考项目:http://download.csdn.net/detail/jrlxsy/6927833),为了绘选区,将图像通过PictureBox显示出来,事件:

利用Tesseract识别58同城图片式手机号码

58同城上的手机号码大多数是图片格式,目的也是防止爬虫软件抓取,但作为一个专门开发爬虫的程序猿,必须拿下它才能安心,否则睡觉做梦也会想着该怎么破这该死的图片号码的! 这里我们利用Google的开源项目:Tesseract-ocr(项目地址:https://github.com/tesseract-ocr) 其实,Tesseract的网上的教程其实有很多,关于它的介绍,我在这里就不说了,直接讲重点! 先是要初始化Tesseract,这里我们用默认的识别库,根据58同城号码图片的特点,我们这样初始化

如何用Tesseract做日文OCR(c#实现)

首先做一下背景介绍,Tesseract是一个开源的OCR组件,主要针对的是打印体的文字识别,对手写的文字识别能力较差,支持多国语言(中文.英文.日文.韩文等).是开源世界里最强的一款OCR组件.当然和世界最强的OCR工具Abbyy相比还是有一点差距,尤其在图片质量较差时,差距还是明显的. 网上有很多关于如何使用这个组件的介绍,不过都是针对英文识别的.而如果是对中文或日文等方块字进行识别,除了需要使用不同的语言包外,还要对Tesseract做一些特别的设置,否则识别率会很低,以下我就和大家分享一下

Python2.7利用Tesseract进行中英文图像识别

背景环境:  win8.1  64位   python2.7.13  本以为会很简单,结果在配置环境这块上花了很多时间,踩了几个坑,最后自己看英文文档和log才解决问题.打开网站  https://pypi.python.org/pypi/pytesseract  https://github.com/tesseract-ocr/tesseract/wikihttps://github.com/tesseract-ocr/tesseract/wiki/Downloadshttp://www.py

利用MSXSL.exe绕过AppLocker应用程序控制策略

1.需要用到微软工具MSXSL.exe,msxsl.exe是微软用于命令行下处理XSL的一个程序,所以通过他,我们可以执行JavaScript进而执行系统命令,其下载地址为: https://www.microsoft.com/en-us/download/confirmation.aspx?id=21714 2.执行该工具需要用到2个文件,分别为XML及XSL文件,其命令如下: msxsl.exe test.xml exec.xsl test.xml: <?xml version="1.