python3 for win10X64下Pillow,pytesserac和tesseract文字识别简单配置。

其实也不算自己写的,在网上东找找西找找,合一块问题就解决了。

和谐社会的程序猿不都这样么。。

上正菜。

先安装pillow

windows 10上面先打开命令提示符:

注:不知道为啥我装python 3.5的时候蛋疼的选择了管理员安装,所以运行命令提示符的话也需要管理员权限。怎么操作就不说了。

1. 安装Pillow

2. 安装pytesseract

3. 再安装tesseract-ocr,注意这个很关系是文字识别的核心程序。

报错了,看来前面太顺了,python看不过去了。

至于报错的信息:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

让我去这个网站装   Microsoft Visual C++ 14.0相关的东东,N N D 我打开网站,下载之后安装,看所需要的空间 4GB。玩不起,还是算了,我是菜鸟,太多的东西不懂,所以不要为难我。

所以找其它方法装tesseract-ocr

这里面有tesseract-ocr for windows的安装方法。安装步骤我们强大的度娘就有:

http://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html

安装时要什么字库自己选。

懒人连接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

MAC  LINUX  WINDOWS 各版本下载

https://github.com/tesseract-ocr/tesseract/wiki

相关的程序基本安装完了。

开始做一个小程序参考图如下:

我是在pycharm中练习的,代码如下:

from PIL import Image
import pytesseract
img = Image.open()
text = pytesseract.image_to_string(img)
print (text)

注:我把上面的参考图命名为22.png了,因为我太2了

装好几个程序了,看看效果运行:

"C:\Program Files\Python35\python.exe" D:/Python_Study3.5/test/pli_png.py
Traceback (most recent call last):
  File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
    text = pytesseract.image_to_string(img)
  File "C:\Program Files\Python35\lib\site-packages\pytesseract\pytesseract.py", line 122, in image_to_string
    config=config)
  File "C:\Program Files\Python35\lib\site-packages\pytesseract\pytesseract.py", line 46, in run_tesseract
    proc = subprocess.Popen(command, stderr=subprocess.PIPE)
  File "C:\Program Files\Python35\lib\subprocess.py", line 676, in __init__
    restore_signals, start_new_session)
  File "C:\Program Files\Python35\lib\subprocess.py", line 957, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] 系统找不到指定的文件。

M D 找不到指定文件,到这里我也不懂,继续百度。然后找到的文章说要更改 pytesseract.py这个文件的一些配置(第二个安装的模块)。因为这里面配置有一些相关于tesseract-ocr(即第三个安装的程序)

更改如下:

在pycharm中如图打开pytesseract.py:

在右边打开的窗口找到:tesseract_cmd 这行代码:

这一行注释掉:因为pytesseract.py文件内默认的tesseract-ocr的主程序环境变量不知道怎么变的,到了windows 下面就不能运行,上面执行的报错代码中找不到文件,其实就是找不到主程序。所以注释掉原来的,我们再新加一行。上面的路径就是你安装Tesseract-ocr程序时的路径:

#tesseract_cmd = ‘tesseract‘

新增加一行:

tesseract_cmd = r‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe‘

保存,运行我们写的代码,看看效果。

又报错了,伤不起

"C:\Program Files\Python35\python.exe" D:/Python_Study3.5/test/pli_png.py
Traceback (most recent call last):
  File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
    text = pytesseract.image_to_string(img)
  File "C:\Program Files\Python35\lib\site-packages\pytesseract\pytesseract.py", line 125, in image_to_string
    raise TesseractError(status, errors)
pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file \\Program Files (x86)\Tesseract-OCR\\eng.traineddata‘)
Process finished with exit code 1

这次报的错,貌似是找不到tesseract-ocr的配置文件。看来还得改pytesseract.py文件。

于是又从网上找了一些东西,继续更改。

如图

保存,接着运行程序:

啥啥成功了,虽然识别多了一个小数点,不过至少不报错了。

就试到这里了,多的我也不会。

以上大部分内容都是来自网上。我不过做下整理。

那里说错了,莫怪,我了解的也不多。

原文地址:http://13136244.blog.51cto.com/13126244/1972816

时间: 2024-10-14 01:07:52

python3 for win10X64下Pillow,pytesserac和tesseract文字识别简单配置。的相关文章

Linux下安装JDK和TOMCAT,并简单配置虚拟主机

JDK安装 首先,用yum list |grep jdk 命令检测系统是否有自带安装的rpm包的 [[email protected] ~]# yum list | grep jdk file:///mnt/cdrom/repodata/repomd.xml: [Errno 14] Could not open/read file:///mnt/cdrom/repodata/repomd.xml Trying other mirror. java-1.6.0-openjdk.i686      

Linux环境下DNS服务器原理及主服务器简单配置

1,DNS介绍 DNS(Domain Name System,域名系统),因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串.通过主机名,最终得到该主机名对应的IP地址的过程叫做域名解析(或主机名解析). 监听的协议端口:UDP/TCP 53 软件实现:bind 2,DNS数状结构: 如下图: 根域:. 一级域如下: 组织域:.com, .org, .net, .mil, .edu, .gov, .info, .cc, .

tesseract文字识别软件开发

参考文献 http://blog.csdn.net/fengbingchun/article/details/6920667 http://blog.csdn.net/fengbingchun/article/details/8493877 http://lxy.me/tesseract-ocr-introduction-and-tutorial.html http://blog.163.com/[email protected]/blog/static/30207003201361529458

Mac-OSX的Python3.5虚拟环境下安装Opencv

Mac-OSX的Python3.5虚拟环境下安装Opencv 1   关键词 关键词:Mac,OSX,Python3.5,Virtualenv,Opencv 2   概述 本文是一篇 环境搭建 的基础文. 为了这个东西让自己折腾了接近2天的时间,各种筛选资料,各种尝试,最后终于找到了相应的资料,然后成功安装. 在整理本文的时候,特别感谢这个作者,他提供了两篇安装opencv的方法,分别是 python2.x [1] 和 python3.x [2] . 笔者按照 3.x 的步骤和线索,再解决掉一些

基于Tesseract OCR的文字识别Android应用开发资料整理

前言 一.Tesseract OCR引擎 Tesseract OCR是HP公司于1985~1995年间开发的商业级OCR(Optical Character Reader, 光学字符阅读器)引擎,并于2005年开放源代码.以下是它sourceforge上的网址: http://sourceforge.net/projects/tesseract-ocr/?source=directory 现在已转移到谷歌的代码服务下: https://code.google.com/p/tesseract-oc

Windows下的Python安装与环境变量的配置

Windows下的Python安装与环境变量的配置 第一步:python下载: Python安装包下载地址:http://www.python.org/ 第二步:python安装: 双击下载包,进入Python安装向导. 此处省略安装时的配图,下一步.下一步即可.但请要注意一点,请把python安装在C盘或D盘的根目录下,程序文件夹名改为python3,(如C:\python3\ 即可) 第三步: 检查安装是否成功: 方法一:双击运行python.exe文件,弹出如下窗口,表示安装成功: 方法二

hadoop搭建杂记:Linux下JDK环境变量的设置(三种配置环境变量的方法)

Linux下JDK环境变量的设置(三种配置环境变量的方法) Linux下JDK环境变量的设置(三种配置环境变量的方法) ①修改/etc/profile文件 如果你的计算机仅仅作为开发使用时推荐使用这种方法,因为所有用户的shell都有权使用这些环境变量,可能会给系统带来安全性问题. vi /etc/profile 在profile文件末尾加入: JAVA_HOME=/usr/share/jdk1.5.0_05PATH=$JAVA_HOME/bin:$PATHCLASSPATH=.:$JAVA_H

AIX下RAC搭建 Oracle10G(二)主机配置

AIX下RAC搭建系列 AIX下RAC搭建 Oracle10G(二)主机配置 环境 节点 节点1 节点2 小机型号 IBM P-series 630 IBM P-series 630 主机名 AIX203 AIX204 交换机 SAN光纤交换机 存储 SAN T3存储 大纲流程如下: 第一部分:主机配置 一.检测系统环境 二.网络配置 三.用户和组 四.网络参数调整 五.时间同步 六.卷组 第二部分:安装hacmp并配置 七.hacmp安装并配置 第三部分:安装CRS 八.安装CRS 第四部分:

linux下编译qt5.6.0静态库——configure配置

 随笔 - 116  文章 - 4  评论 - 7 linux下编译qt5.6.0静态库--configure配置 linux下编译qt5.6.0静态库 linux下编译qt5.6.0静态库 configure生成makefile 安装选项 Configure选项 第三方库: 附加选项: QNX/Blackberry选项: Android 选项: 生成makefile 遇到链接检查失败的情况 生成makefile后进行编译 编译时的错误 多重定义'QT_MODBUS()'和'QT_MODBU