OCR识别-python3.5版

刚接触,啥子都不会,按着教程走

需求:识别图片中的文字信息
环境:windows系统

开发语言:python3.5

使用工具类:1.pyocr
      2.PIL
      3.tesseract-ocr

步骤:

1.pyocr

网络通直接使用命令:
pip install pyocr

网络不通,转至https://pypi.python.org/pypi/pyocr/0.4.1下载安装

2.安装pil(一直没安装成功,好像没有对应的3.5的版本,要2.X的才行,不过这个可以跳过,不安装)
网络通直接使用命令:
pip install PIL

网络不通,转至http://www.pythonware.com/products/pil/index.htm下载安装

3.安装tesseract-ocr

http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe

exe文件,下载后直接安装,建议默认安装过程中的选项,安装目录默认C:\Program Files
(x86)\Tesseract-OCR

# coding=utf-8__author__ = ‘yjj‘

#https://github.com/tesseract-ocrimport sysimport importlib#reload(sys)importlib.reload(sys);#sys.setdefaultencoding(‘utf-8‘)

import os;os.environ[‘NLS_LANG‘] = ‘SIMPLIFIED CHINESE_CHINA.UTF8‘try:    from pyocr import pyocr    from PIL import Imageexcept ImportError:    print(‘模块导入错误,请使用pip安装,pytesseract依赖以下库:‘)    print(‘http://www.lfd.uci.edu/~gohlke/pythonlibs/#pil‘)    print(‘http://code.google.com/p/tesseract-ocr/‘)    raise SystemExittools = pyocr.get_available_tools()[:]if len(tools) == 0:    print("No OCR tool found")    sys.exit(1)print("Using ‘%s‘" % (tools[0].get_name()))print(tools[0].image_to_string(Image.open(‘D:\\123.png‘),lang=‘eng‘))print(tools[0].image_to_string(Image.open(‘D:\\3434.png‘),lang=‘chi_sim‘))#print tools[0].image_to_string(Image.open(‘D:\\3535.png‘),lang=‘chi_sim‘)

文件内容:(把图片放在D盘)

123.png

3434.png

输出:

Using ‘Tesseract (sh)‘
7364
求i只另U眈R第 1代

在整个过程中可能会遇到的问题

1.(有时候重新启动编译软件,错都不算什么了,奇怪的是没有错了,我就是这样)如果控制台直接输出:“No OCR tool found”,说明未成功安装tesseract-ocr,debug查看get_available_tools,在该方法中回去查看本机已经安装有的ocr识别库,有三种,

libtesseract,
tesseract,
cuneiform,

本文使用的是第二种tesseract,

tesseract具体安装请转至。

2.在识别带中文的图片,会遇到报“allow_blob_division”的错误,

需要下载tesseract-ocr的中文库,地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-3.02.chi_sim.tar.gz/download,里面包含tesseract多有的文字库,chi_sim.traineddata为简体中文库,将该文件放至C:\Program
Files
(x86)\Tesseract-OCR\tessdata目录下接下来的具体处理方法,转至:https://www.cnblogs.com/syqlp/p/5462459.html

时间: 2024-08-28 09:28:34

OCR识别-python3.5版的相关文章

OCR识别-python版(一)

需求:识别图片中的文字信息环境:windows系统 开发语言:python 使用工具类:1.pyocr 2.PIL 3.tesseract-ocr 步骤: 1.pyocr 网络通直接使用命令:pip install pyocr 网络不通,转至https://pypi.python.org/pypi/pyocr/0.4.1下载安装 2.安装pil网络通直接使用命令:pip install PIL 网络不通,转至http://www.pythonware.com/products/pil/index

Onenote实现OCR识别图片

OCR识别推荐两个软件: Tesseract:一个开源的,由谷歌维护的OCR软件. Onenote:微软Office附带或者可以自己独立安装. 这次讲Onenote实现的OCR识别. 注:2010版及其以后版本OCR实现方式类似:office将其转换为特定xm格式,然后提取想要的节点就ok了:onenote2007识别比较简单:通过MODI API接口直接之别. 我这里是实现了 office2007和office2010的ocr识别函数. 源程序下载:坚果云连接 1 using Microsof

行驶证OCR识别

技术发展迅速的今天,激发出一个新型市场,那就是汽车后市场.在汽车后市场的发展中,以汽车市场服务型为主的互联网企业也如雨后春笋般不断刷新着汽车后市场行业.同时,随着生活水平的提高,对于普通大众对出行的要求也变得越来越高了,舒适和便捷已经变为基本的条件. 让大家来了解一下行驶证图片识别,这也是舒适和便捷的具体体现.行驶证图片识别是什么?肯定会有人开始打上一个大大的问号.它又和舒适便捷有什么关系?以上疑问在下面的文章中都会得到一一解答. 人工智能应该都知道,如今的AI时代.其实呢,行驶证图片识别只是目

移动端名片识别-ocr识别

随着业务的增多,我们的客户资源也会越来越多.特别是在参加展会的时候,我们会收集到大量的名片.然而当我们还在一个一个的输入保存的时候,名片识别功能软件已经诞生了. 原始的方法输入保存速度慢,易出错,体验差. 移动端名片识别是我们开发的基于移动平台识别名片的SDK开发包,支持Android.iOS.linux.windows等多种主流移动操作系统.该产品采用手机.平板电脑摄像头拍摄银行卡图像,然后通过OCR软件对名片信息进行识别提取. 移动端名片识别技术参数 支持平台 Android4.0以上.iO

名片识别私有云OCR识别

名片识别私有云特点 简单--企业可将该识别服务部署在自有服务器上(云服务器或本地服务器),1个小 时即可完成安装部署,非常简单; 高效--识别率高达98%,单张识别速度小于1秒,领先业内; 方便--该识别服务更新维护方便,企业可自行进行更新维护; 通用--支持APP端.PC端.H5端.微信端等多种平台调用识别; 全面--可识别各种字体的名片,包含横版名片.竖版名片. 名片识别私有云描述 名片识别私有云别即服务器版名片识别,名片识别私有云可部署在客户私有服务器中(私有本地服务器或云服务器均可),A

车牌OCR识别的流程,手机车牌识别

车牌的OCR识别的流程如下: 手机车牌识别背景 随着人们生活水平的提高,汽车方面的业务量也日益暴涨,加上如今"互联网+"的提出,智能终端(智能手机及平板电脑)及移动通信(4G)发展迅速,人们用手机的频率比用电脑的多,加上手机小巧轻便,成为生活中必要的工作及社交工具,可以预见未来几年60%以上的业务将会逐渐转移到智能终端系统上来.伴随着移动端APP的火爆应用,易泊将原来应用在电脑端的车牌识别技术转移到了移动端,手机车牌识别更加灵活,方便,为人们的应用解决了很多实际困难. 手机车牌识别描述

【安装】下载python3.4版

首先,到官网去下载python3.x版,这里推荐3.4以上的版本,自带pip库,以后不用自己另外下载 3.4.4版: https://www.python.org/downloads/release/python-344/ 多版本python的设置: http://blog.csdn.net/bskycloud/article/details/50756569 让Sublime Text支持2.x与3.x编译环境:http://jingyan.baidu.com/article/6f2f55a1

OCR识别技术文档识别怎么用

OCR识别技术文档识别的概括 我们常说的OCR.文字识别.OCR识别技术文档识别是指通过电子设备等将纸质上的文字识别出来,形成可编辑的文字. OCR识别技术文档识别的流程 随着扫描仪的普及与广泛应用,再加上摄像头迅速发展的手机等智能终端设备的应用,OCR识别技术文档识别软件越来越被应用于各种业务系统中. 常规的OCR文字识别处理的过程包括: 1.图像输入.预处理:二值化图片.噪声去除.倾斜较正: 2.版面分析:把页面分为横排文本.竖排文本.表格.图片等不同区域,帮助字符切割.识别OCR: 3.设

Acrobat 无法在本页面上执行OCR识别

下载的电子书有时不能选中,或作黄色标记,在用acrobat pro作文本识别时,报 Acrobat 无法在本页面上执行OCR识别 解决方法 参照 http://jingyan.baidu.com/article/ad310e80bc8d851849f49eb3.html Acrobat 无法在本页面上执行OCR识别 ,在我们使用文本识别时候会经常遇到的情况. 本页面包含可渲染的文本或者其他错误的解决. Acrobat could not perform recognition (OCR) on