python安装OCR识别库

（1）安装过程

参考的这个博客：https://blog.csdn.net/lanxianghua/article/details/100516187?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

（2）安装中文字库

识别中文需要安装字库，参考这个博客：https://www.cnblogs.com/jiyu-hlzy/p/12191463.html

（3）安装过程出现的错误

安装后执行程序时出现了以下错误：

这个错误是找不到tesseract.exe造成的，但是我又在pytesseract.py中添加了路径，最终发现是由于下面的原因造成的：

（4）测试

参考别的博客，写了几行简单的测试代码，代码如下：

 1 # encoding: utf-8
 2
 3 import pytesseract
 4 from PIL import Image
 5 import os
 6
 7
 8 if __name__ == "__main__":
 9     print (os.getcwd())
10     im_ch = Image.open(‘test.png‘)
11
12     print(‘========识别中文========‘)
13     print(pytesseract.image_to_string(im_ch, lang=‘chi_sim‘))

测试的图片和结果如下：

可以看到，测试的图片不是分清晰，测试也出现了很多错别字。

（5）改进

接着又去找了一些博客来看，都在说可以使用百度AI来提高精度，参考这个博客实现了一下：https://www.cnblogs.com/adam012019/p/11440353.html

效果如下：

可以看到，效果已经非常不错了。

至此，这篇博客就写到这里为止了，其实我是突然想弄一个这个，因为在网上找的在线图片识别都是要收费的，我就想为何不自己写一个，就在网上找了几篇博客看。网友的力量真是强大，再次感谢以上博客的网友。

附录：

百度智能云，文字识别API简介：https://cloud.baidu.com/doc/OCR/s/Ek3h7xypm。

可以去开通一个，每天的免费额度还是够个人使用了。

原文地址：https://www.cnblogs.com/mrlayfolk/p/12617077.html

时间： 2024-10-10 02:19:04

python安装OCR识别库的相关文章

开源OCR识别库-Tesseract介绍

最近在github上面看到一个开源的ocr文字识别库,感觉效果还可以,所以在这里介绍一下,这个项目的原地址在:https://github.com/tesseract-ocr/tesseract. tesseract库支持你训练自己的文字识别模型,当然其本身已经提供了几十种不同语言模型,你也可以直接下载使用,最新的4.0版本使用了LSTM神经网络框架, 在识别中文方面效果还是不错的.tesseract有两种使用方式,一种是安装完成以后,通过命令行向tesseract应用传入要解析的图片,翻译完成

python安装好django库，新建django项目

我安装好django库之后,想在pycharm里新建django项目,发现没有django选项.百度后发现只有专业版才可以直接创建django项目,社区版推荐用命令创建,如下: 1. 在DOS黑窗口下进入到你想创建项目的路径下 2. django-admin startproject MySite(MySite为项目名称,自行更换) 创建项目 3. cd到项目目录(cd MySite)输入:python manage.py runserver 运行项目 4. 浏览器里输入127.0.0.1:8

Python——安装requests第三方库

一.介绍 requests是Python的一个HTTP客户端库,跟urllib,urllib2类似,不过requests的优势在于使用简单,相同一个功能,用requests实现起来代码量要少很多.毕竟官方文档都很直白的说: python的标准库urllib2提供了大部分需要的HTTP功能,但是API太逆天了,一个简单的功能就需要一大堆代码. 所以,使用requests方便的多. 二.下载安装注:没有配置好Python开发环境的同学可以先戳配置Python开发环境 1.首先去这里requests

基于Python实现对PDF文件的OCR识别

http://www.jb51.net/article/89955.htm https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-python/ 大家可能听说过使用Python进行OCR识别操作.在Python中,最出名的库便是Google所资助的tesseract.利用tesseract可以很轻松地对图像进行识别.现在问题来了,如果想对一个PDF文档进行OCR识别,该怎么做呢?下面一起来看看. 最近在做一个项目的时候,需要将PDF文件

OCR识别-python版（一）

需求:识别图片中的文字信息环境:windows系统开发语言:python 使用工具类:1.pyocr 2.PIL 3.tesseract-ocr 步骤: 1.pyocr 网络通直接使用命令:pip install pyocr 网络不通,转至https://pypi.python.org/pypi/pyocr/0.4.1下载安装 2.安装pil网络通直接使用命令:pip install PIL 网络不通,转至http://www.pythonware.com/products/pil/index

OCR识别-python3.5版

刚接触,啥子都不会,按着教程走需求:识别图片中的文字信息环境:windows系统开发语言:python3.5 使用工具类:1.pyocr 2.PIL 3.tesseract-ocr 步骤: 1.pyocr 网络通直接使用命令:pip install pyocr 网络不通,转至https://pypi.python.org/pypi/pyocr/0.4.1下载安装 2.安装pil(一直没安装成功,好像没有对应的3.5的版本,要2.X的才行,不过这个可以跳过,不安装)网络通直接使用命令:pip

Python安装tesserocr遇到的各种问题及解决办法

Tesseract的安装及配置在Python爬虫过程中,难免遇到各种各样的验证码问题,最简单的就是?这种验证码了,那么在遇到验证码的时候该怎么办呢?我们就需要OCR技术了,OCR-即Optical Character Recognition光学字符识别,是指通过扫描字符,然后将其形状翻译成电子文本的过程.而tesserocr是Python的一个OCR识别库,所以在安装tesserocr之前,我们需要安装tesseract这个东西下载地址:https://digi.bib.uni-mannhe

[深度学习工具]·极简安装Dlib人脸识别库

[深度学习工具]·极简安装Dlib人脸识别库 Dlib介绍 Dlib是一个现代化的C ++工具箱,其中包含用于在C ++中创建复杂软件以解决实际问题的机器学习算法和工具.它广泛应用于工业界和学术界,包括机器人,嵌入式设备,移动电话和大型高性能计算环境.Dlib的开源许可证允许您在任何应用程序中免费使用它.Dlib有很长的时间,包含很多模块,近几年作者主要关注在机器学习.深度学习.图像处理等模块的开发. 安装此博文针对Windows10安装,其他平台可以仿照这个步骤来安装安装Minicond

Linux环境下的Python配置，必备库的安装配置

1.默认Python安装情况一般情况,Linux会预装Python的,版本较低,比如Ubuntu15的系统一般预装的是Python2.7.10. 使用命令:which python可以查看当前的python的安装路径: 打开对应路径就可以看到: 如果没有明确必须要使用Python3的版本,可以直接使用2.7.10的版本. 明确需要使用Python3版本,再进行更改. 这里需要说明一点:上图中存在有python,python2,python3,说明安装了2和3的版本, 2.更改安装Python3