集成利用tesseract.exe进行ocr

ocr是一个宽泛的概念。市场上面ocr将一直是一个不断发展、需求强烈的方向。

我认为，从难度上区分，中文ocr难于英文ocr;手写ocr难于印刷ocr。所以两两组合，中文手写体最难（比如毛体，有一些人都识别不了）；而英文（数字）印刷体ocr最简单，对于最简单的东西，我认为就可以直接使用tesseract，它本身就是集成了对英文（数字）的识别。将这个功能集成起来，甚至是研究其开源实现，将其融合起来。

下载http://uniontesting.com/thread-32030-1-1.html

比较详细的介绍来自于：http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html

如果采用命令行的方式集成，核心代码，可以达到一定的效果：

 private void button1_Click(object sender, EventArgs e)
        {
            string filePath = @"tesseract.exe";
            string paramstr = @"bbb3.jpg r";
            System.Diagnostics.Process.Start(filePath,paramstr);

        }

通过 http://blog.csdn.net/fengbingchun/article/details/8493877可以了解到，可以直接采用api的方式对该ocr进行调用,那么融合的程度就进一步提高了!并且可以结合opencv 进行一些同步并行的处理.

时间： 2024-10-11 11:17:17

集成利用tesseract.exe进行ocr的相关文章

Python中利用Tesseract软件来识别图片中的英文与中文

OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制. Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司).Tesseract 是目前公认最优秀.最精确的开源OCR 系统. 除了极高的精确度,Tesseract 也具有很高的灵活性.它

Tesseract 3.02 OCR文字识别调查记录

安装使用: Tesseract下载地址 https://code.google.com/p/tesseract-ocr/ 目前最新版本为3.02 windows版下载解压后,使用命令行,进入解压后目录运行命令格式: Usage:tesseract.exe imagename outputbase [-l lang] [-psm pagesegmode] e...] pagesegmode values are: 0 = Orientation and script detection (OSD

利用wsdl.exe生成webservice代理类

根据提供的wsdl生成webservice代理类 1.开始->程序->Visual Studio 2005 命令提示 2.输入如下红色标记部分 D:/Program Files/Microsoft Visual Studio 8/VC>wsdl /language:c# /n:TestDemo /out:d:/Temp/TestService.cs D:/Temp/TestService.wsdl 在d:/Temp下就会产生一个TestService.cs 文件注意:D:/Temp/T

解析利用wsdl.exe生成webservice代理类的详解

利用wsdl.exe生成webservice代理类:根据提供的wsdl生成webservice代理类1.开始->程序->Visual Studio 2005 命令提示2.输入如下红色标记部分D:/Program Files/Microsoft Visual Studio 8/VC>wsdl /language:c# /n:TestDemo /out:d:/Temp/TestService.cs D:/Temp/TestService.wsdl在d:/Temp下就会产生一个TestServ

利用AForge+Tesseract制作视频OCR程序

先上界面: 实现功能及流程: 1:从摄像头获取图像,框选要识别的区域 2:对选区进行图像处理,方便识别 3:识别文字 4:获取芯片上的内容(使用客户提供的芯片解码程序) 5:比较两个内容是否一致 6:写入数据库(带图片) 7:对历史数据进行查阅.导出Word(导出时带图片) 此版本将4~7功能去除了获取图像: 使用AForge组件(参考项目:http://download.csdn.net/detail/jrlxsy/6927833),为了绘选区,将图像通过PictureBox显示出来,事件:

利用Tesseract识别58同城图片式手机号码

58同城上的手机号码大多数是图片格式,目的也是防止爬虫软件抓取,但作为一个专门开发爬虫的程序猿,必须拿下它才能安心,否则睡觉做梦也会想着该怎么破这该死的图片号码的! 这里我们利用Google的开源项目:Tesseract-ocr(项目地址:https://github.com/tesseract-ocr) 其实,Tesseract的网上的教程其实有很多,关于它的介绍,我在这里就不说了,直接讲重点! 先是要初始化Tesseract,这里我们用默认的识别库,根据58同城号码图片的特点,我们这样初始化

如何用Tesseract做日文OCR（c#实现）

首先做一下背景介绍,Tesseract是一个开源的OCR组件,主要针对的是打印体的文字识别,对手写的文字识别能力较差,支持多国语言(中文.英文.日文.韩文等).是开源世界里最强的一款OCR组件.当然和世界最强的OCR工具Abbyy相比还是有一点差距,尤其在图片质量较差时,差距还是明显的. 网上有很多关于如何使用这个组件的介绍,不过都是针对英文识别的.而如果是对中文或日文等方块字进行识别,除了需要使用不同的语言包外,还要对Tesseract做一些特别的设置,否则识别率会很低,以下我就和大家分享一下

Python2.7利用Tesseract进行中英文图像识别

背景环境: win8.1 64位 python2.7.13 本以为会很简单,结果在配置环境这块上花了很多时间,踩了几个坑,最后自己看英文文档和log才解决问题.打开网站 https://pypi.python.org/pypi/pytesseract https://github.com/tesseract-ocr/tesseract/wikihttps://github.com/tesseract-ocr/tesseract/wiki/Downloadshttp://www.py

利用MSXSL.exe绕过AppLocker应用程序控制策略

1.需要用到微软工具MSXSL.exe,msxsl.exe是微软用于命令行下处理XSL的一个程序,所以通过他,我们可以执行JavaScript进而执行系统命令,其下载地址为: https://www.microsoft.com/en-us/download/confirmation.aspx?id=21714 2.执行该工具需要用到2个文件,分别为XML及XSL文件,其命令如下: msxsl.exe test.xml exec.xsl test.xml: <?xml version="1.

猜你喜欢

es6函数的rest参数和拓展运算符(...)的解析

es6的新特性对函数的功能新增加了rest参数和...的拓展运算符.这是两个什么东西呢? 先来看一个问题:如何获取一个函数除了定义的参数之外的其他参数?传统的做法是借助函数的arguments关键字来 ...

HTML5进阶段内联标签汇总（小篇）

HTML5进阶段内联标签汇总(小篇) 内联元素,与别人公用一行,但是设置宽高无效.其特点: ①和其他元素都在一行上: ②高,行高及外边距和内边距不可改变: ③宽度就是它的文字或图片的宽度,不可改变 ④ ...

转让lua性能executeGlobalFunction

没有其他的,搞搞cocos2dx的lua文字,话lua这件事情在几年前学过一段时间.还曾对自己c++介面,我已经做了一些小东西.只是时间的流逝,模糊记忆. 拿起点功夫和成本.下面是我的一些经验. co ...

Java封装private只在本类中有效

AIX系统root密码丢失解决办法

AIX系统root密码丢失解决在对AIX操作系统的日常管理中,经常忘记或丢失root密码,这时候就需要重置root密码.AIX系统丢失root密码,可以使用系统安装光盘或备份rootvg的磁带两 ...

静态常量static和方法重载

静态常量思维导图有时在处理问题时,会需要两个类在同一个内存区域共享一个数据.这时没有必要在两个类中同时创建同一个常量,因为这样系统会将这两个不在同一个类中定义的常量分配到不同的内存空间中.可以将这个 ...

客户端共享内存设计方案

在Windows 2003 server 64bit 安装 HQ CRP 5.8.2.1

首先需要安装 postgresql 9.1 ,下载地址,如下: http://get.enterprisedb.com/postgresql/postgresql-9.1.14-1-windows-x ...

测试打开文件并读取文件内容

无法复制xxxx: 文件正在被另一个人或程序使用,这种情况下怎么想办法用QT拷贝这个文件,或者读出文件内容文件正在被另一个人或程序使用,这种情况下怎么想办法用Delphi拷贝这个文件,或者直接读出文 ...

例题3.20 图询问 LA5031

1.题目描述:点击打开链接 2.解题思路:本题利用Treap树实现的名次树来完成这三种操作.由于操作比较复杂,因此我们利用离线算法来解决.可以实现把所有的D操作执行完,得到剩下的图,接着按照逆序逐步插 ...

这些年正Android - 序言

2008年,当北京奥运会开幕时,我只关心过精神,粮食和当下的积蓄,并没有在意过一个今后改变我人生的编程语言 - Android,一直影响我到今天. 踏进这个行业本身就是勇气,面对玩命奔跑的技术更新和迭 ...

Python 面向对象二

通过此方法communicate 管道日志模块logging python单独提供 re.split(规则,字符串,1)以第一个符合规则的进行分割. random 模块将数字转换为字母char( ...

spring框架学习（三）junit单元测试

spring框架学习(三)junit单元测试单元测试不是头一次听说了,但只是听说从来没有用过.一个模块怎么测试呢,是不是得专门为一单元写一个测试程序,然后将测试单元代码拿过来测试? 我是这么想的.学 ...

【贴吧周二美女】●奔跑在枫叶国的女神经

ID]终不离8 [生日]0518 [地区]温哥华/辽宁 [昵称]8哥.花哥哥 [性格]直爽.逗比.男孩子气偶尔会多愁善感 [身高]168 [爱好]...http://weibo.com/2015090 ...

mac 下安装 mit-scheme

这两天心血来潮想看一下 SICP 和 Lisp,准备先看 SICP ,之后再学 Haskell, 深入学习一下函数式编程. 所以得装个 mit-scheme 做练习. 尝试了 3 种方式, 前 2 种 ...

C# 代码笔记_tuple元组

赋值 List<Tuple<string, int>> cc = new List<Tuple<string, int>>() { new Tuple& ...

UML9种图中的构件图和部署图

构件图和部署图用来描述系统的物理实现和物理运行情况.其中构件是基本单位,将系统中可重用的模块封装为具有可替代性的物理单元,这种物理单元被称为构件.构件是在一个系统或子系统中的封装单位, ...

3、自学——计算机网络学习任务与进度（OSI参考模型和网络安全）

OSI参考模型和网络安全 1.前章知识补充: 判断网络是否通畅的具体操作: 运行--在输入窗口输入cmd--在跳出的输入窗口输入ping (存放数据的服务器的地址) 2.OSI参考模型和网络安全的举例 ...

input输入时使用正则表达式进行限制

<table class="table_std"> <tr> <th scope="row">会员I ...

冒泡排序和选择排序

冒泡排序和选择排序是排序算法中比较简单和容易实现的算法.冒泡排序的思想为:每一次排序过程,通过相邻元素的交换,将当前没有排好序中的最大(小)移到数组的最右(左)端.而选择排序的思想也很直观:每一次排序 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.060 s.