Windows环境安装tesseract-ocr 4.00并配置环境变量

最近要做文字识别，不让直接用别人的接口，所以只能尝试去用开源的类库。tesseract-ocr是惠普公司开源的一个文字识别项目，通过它可以快速搭建图文识别系统，帮助我们开发出能识别图片的ocr系统。因为Windows环境开发，我也就必须在windows环境安装系统。

第一步：下载安装包

根据https://github.com/tesseract-ocr/tesseract/wiki，我找到非官方的安装包，好像我只看到64位的安装包http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe，下载后直接安装即可，但是要记得你的安装目录，我们等会配置环境变量要用。

如果不是做英文的图文识别，还需要下载其他语言的识别包https://github.com/tesseract-ocr/tesseract/wiki/Data-Files。

简体字识别包：https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata

繁体字识别包：https://github.com/tesseract-ocr/tessdata/raw/4.0/chi_tra.traineddata

第二步：安装

直接执行下载好的tesseract-ocr-setup-4.00.00dev.exe，下一步、下一步安装。

第三步：配置环境变量

注意：我的系统是win7，其他系统应该差不多，跟配置java变量一样

复制你的安装地址，我的是安装在C:\Program Files (x86)\Tesseract-OCR，界面如下：

复制安装路径“C:\Program Files (x86)\Tesseract-OCR”，进入“控制面板\系统和安全\系统”，点击

“系统保护”

进入到以下界面：

点击环境变量，进入配置以下界面：

把刚才的安装路径“C:\Program Files (x86)\Tesseract-OCR”添加到红线划的PATH和Path，注意，添加时候开头用“;”跟之前的变量隔开，结尾以“;”结尾。下面是我的配置信息样本：

C:\Users\Administrator\AppData\Roaming\Composer\vendor\bin;C:\Users\Administrator\AppData\Roaming\npm;C:\Program Files (x86)\Tesseract-OCR;

配置好了点击保存。

打开命令终端，输入：tesseract -v，可以看到版本信息

如果出现报错，估计是环境变量没配置好。

到这里，我们就算安装完成了，但是，我们的系统还是无法识别中文的，我们要去下载简体汉字、繁体汉字语言包（上文给了地址了），下载好之后放到安装目录的tessconfigs目录下即可。

补充：因为没有配置全局变量，无法跨盘执行数据转换，这里我们在环境变量那增加一个配置信息

系统变量—->新建：

增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径C:\Program Files (x86)\Tesseract-OCR;

本人博客：Windows环境安装tesseract-ocr 4.00并配置环境变量

http://www.wangtuizhijia.com/archives/272

时间： 2025-01-07 01:33:47

Windows环境安装tesseract-ocr 4.00并配置环境变量的相关文章

Win10 环境安装tesseract-ocr 4.00并配置环境变量

一.安装: 选择对应版本,https://digi.bib.uni-mannheim.de/tesseract/ 1:下载安装包根据https://github.com/tesseract-ocr/tesseract/wiki,我找到非官方的安装包,好像我只看到64位的安装包http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,下载后直接安装即可,但是要记得你的安装目录,我们等会配置环境变量要用

如何在windows上编译Tesseract OCR

获取Tesseract源码的方式有很多.可以直接从repo获取,也可以下载压缩包.不过编译的时候往往也会出现各种奇怪的问题.这里介绍如何简单的配置和编译源码. 参考原文:How to Build Tesseract OCR Library on Windows 编译Tesseract 下载 Windows installer of tesseract-ocr 3.02.02 安装安装过程中勾选Tesseract development files: 编译在安装目录中找到vs2008到工程目录

windows下安装Apache、php、mysql集成环境

一.准备工作本次安装的版本分别为:apache2.4 .php5.6 . mysql5.7 下载地址为:http://pan.baidu.com/s/1boQNIOn 密码:zarx 二.安装步骤先安装apahce ,然后安装php,最后安装mysql. 作为一个web集成环境,必然是先安装apache的,而apche的响应得靠php来反馈,php的数据又得从mysql里面获取,因此整个流程安装,是先apache, 再php,最后mysql. 三.安装Apahce 安装由于本次下载

LAMP坏境和LNMP环境安装Nagios4.1.1和基本配置

----------------------------------------以下内容为笔者生产环境的监控,安装都是经过一步步测试的-------------------------------- 环境:LAMP :CentOS 6.8 .Apache 2.4. Mysql 5.6 . PHP 5.6.22 LNMP: CentOS 6.8 .Nginx 1.10. Mysql 5.6 . PHP 5.6.22 软件:Nagios4.1.1 .NRPE2.15.Nagios-plugins

Fedora 20下安装官方JDK替换OpenJDK并配置环境变量

Fedora 20自带OpenJDK,所以如果安装官方的JDK的话要先删除OpenJDK,步骤如下: 1:rpm -qa|grep jdk 查看当前的jdk情况. 2:yum -y remove java java-1.7.0-openjdk* 卸载openjdk,这个过程中因为依赖原因可能会卸载一些额外的软件. 3:去Oracle官网下载官方jdk,我下载的是tar.gz格式的. 4 :解压jdk安装包tar -zxvf jdk-7u51-linux-x64.tar.gz 复制到自己的软件文

Windows 2012 安装 Oracle 11g 报错：[INS-13001]环境不满足最低要求。

问题: 在Windows Server 2012 安装上 Oracle 11g 时,安装程序报错:[INS-13001]环境不满足最低要求. 分析原因: Oracle 在发布 11g时,Winodws Server 2012还没有发布.所以Oracle的安装程序中,并没有将Windows 2012作为被认证的操作系统. 解决方案: 第一种方法: 直接忽略安装即可. 第二种方法: 修改Oracle的安装用的预配置文件cvu_prereq.xml. 用记事本打开\database\stage\cvu

转 windows下安装pycharm并连接Linux的python环境

https://www.cnblogs.com/junxun/p/8287998.html 1. 下载安装Pycharm专业版具体方法略.Pycharm5激活方法参考http://www.cnblogs.com/snsdzjlz320/p/7110186.html 2. 添加配置连接远程服务器 2.1 打开 PyCharm,依次点开 File → Settings → Project scripts → Project Interpreter 选择“Add Remote” 2.2 点击

Windows下安装nodejs并进一步搭建vue开发环境步骤（二）

1．安装cnpm 说明:由于许多npm包都是在国外,我们这里用到淘宝的镜像服务器,来对我们依赖的module进行安装,因此首先安装"中国的npm"--cnpm 参考网址:http://npm.taobao.org/ 安装命令为:npm install -g cnpm --registry=https://registry.npm.taobao.org 2．用cnpm安装vue 安装命令:cnpm install vue -g 3．安装vue命令行工具安装命令:cnpm i

Solr6.6环境安装及core的创建（win7环境）

1.下载solr6.6 并解压地址: http://www.apache.org/dyn/closer.lua/lucene/solr/6.6.0 2.安装JDK1.8 地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 3.配置 SOLR_JAVA_HOME 环境变量指定到JDK的安装目录 4.启动solr服务 (采用solr内嵌的jetty启动服务) 5.启动成功后,

猜你喜欢

java中获取当前系统时间，并与字符串相互转换格式，或者转化成秒数，天数等整数

转换成秒数 Date类有一个getTime()可以换回秒数,例如: public class DateToSecond { public static void main(String[] args) ...

bzoj:4209: 西瓜王

原题链接:http://www.lydsy.com/JudgeOnline/problem.php?id=4209 (虽然仅仅是看在名字的份上,我们还是得说这题是一道) 绝世好题!西瓜王!西瓜王!西瓜 ...

虚函数

微软官方的解释: 虚函数是指一个类中你希望重载的成员函数,当你用一个基类指针或引用指向一个继承类对象的时候,你调用一个虚函数,实际调用的是继承类的版本. 虚函数最关键点是动态联编,它可以在运行时判断 ...

大学生创业浅见

饿了么和铁血君品行这是两个比较有代表性的大学生创业的成功典范. 饿了么在大学校园里比较常见,不过我们学校也是这学期才火起来.铁血君品行离我们日常生活好像比较远.不过这个两个产品都有一个共同的相似点:关 ...

怎么判断字符串a的内容包含字符串b的内容

在vb.net可以使用InStr(a,b)方法来判断字符串a的内容是否包含字符串b的内容. InStr(a, b) 如果a中包含有b则InStr(a, b) 返回一个大于0的值,如果不含有b则返回0. ...

mysql下的socket文件作用

网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket,一般在配置部署mysql环境时都会在mysql的my.cnf文件中[mysqld]栈下添加上socket文件的 ...

Tomcat服务器启动错误之Offending class: javax/servlet/Servlet.class

引子最近在基于Wex5项目开发中,遇到使用过程中与Tomcat功能有关的错误提示, 如题所示.最终的解决方法就是删除掉项目上与tomcat冲突的jar包. org.apache.catalina.l ...

MyBatis学习总结(六)——动态SQL

MyBatis的动态SQL是基于OGNL表达式的,它可以帮助我们方便的在SQL语句中实现某些逻辑. MyBatis中用于实现动态SQL的元素主要有: if choose(when,otherwise) ...

HTML5文件系统API和资料整理

来着火狐开发网络的官方文档:点我打开 : W3C的官方文档: 点我打开 : 园友的博客: 点我打开: 浏览器兼容性, 好了就chrome支持, 我刚刚更新的火狐37也不支持, nice, 太nice ...

前端开发感悟：日常工作与新技术

原文地址:http://www.kuqin.com/webpagedesign/20120804/323847.html 为什么感觉前端发展缓慢 Q: 这几年前端技术风起云涌,HTML5, CSS3, ...

二：Storm的配置项说明

配置项配置说明 storm.zookeeper.servers ZooKeeper服务器列表 storm.zookeeper.port ZooKeeper连接端口 storm.local.dir s ...

本文介绍用javascript制作图片轮换效果,原理很简单,就是设置延时执行一个切换函数,函数里面是先设置下面的缩略图列表的白框样式,再设置上面大图的src属性,在IE中显示很正常,可是在FF中会有变 ...

ios8 UITableView section不显示

ios8 如果UITableView只设置viewForHeaderInSection,则可能section不能显示,iOS7及以下版本显示正常. 解决方案: 设置heightForHeaderInS ...

MVC Bundle生成的css路径问题

项目是嵌套在主站的一个子站点,结果用CssRewriteUrlTransform来将相对目录路径改成相对网站根目录路径的时候发现少了虚拟目录的路径.最终解决方案: /// <summary> ...

CoreData修改了数据模型报错 The model used to open the store is incompatible with the one used to create the store

在iOS 6 – Core Data 应用程序的开发过程中, App启动时出现如下异常信息: reason = “The model used to open the store is incompa ...

Boost中的Timer的使用——计算时间流逝

使用Boost中的Timer库计算程序的执行时间程序开发者都会面临一个共同的问题,即写出高质量的代码完成特定的功能.评价代码质量的一个重要标准就是算法的执行效率,也就是算法的执行时间.为了可靠的提高 ...

如何查看智能手机的IP地址

1. 外网IP IP地址可简单分为两类.外网IP或称公网IP是用来在Internet上唯一标识你的设备的.如果你通过GPRS或者3G技术接入互联网的话(通过运营商网络),那么你也可以通过下面的方法找 ...

哲学家用餐问题的几个解法（c语言实现）

参考资料: 1.维基百科:哲学家用餐问题 2.Windows的多线程编程

html局部打印

html页面局部打印的小栗子只要修改点击打印的按钮和打印的div区域的id就行啦 <!DOCTYPE html> <html> <head> <title& ...

基于XMPP实现的Openfire的配置安装+Android客户端的实现

基于XMPP实现的Openfire的配置安装+Android客户端的实现最近在整理一些这方面的资料,闲话少说,咱还是直奔主题吧 :) 一.基于xmpp实现的openfire的配置安装 1. 下载最新 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.