pytesser图片文本识别

python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件,为了避免一个个工具的安装,建议使用pythonxy,这个工具的介绍可参考baidu。

pytesser是谷歌OCR开源项目的一个模块,在Python中导入这个模块即可将图片中的文字转换成文本。pytesser调用了 tesseract。当在Python中调用pytesser模块时,pytesser又用tesseract识别图片中的文字。pytesser的使用 步骤如下:

首先,安装Python2.7版本,这个版本比较稳定,建议使用这个版本。

其次,安装pythoncv。

然后,安装PIL工具,下载的地址是:http://www.pythonware.com/products/pil/,pytesser的使用需要PIL库的支持。

接着下载pytesser,下载的地址是:http://code.google.com/p/pytesser/downloads/list

最后,将pytesser解压,这个是免安装的,可以将解压后的文件cut到Python安装目录的Lib\site-packages下直接使用,比如我的安装目录是:C:\Python27\Lib\site-packages,同时把这个目录添加到环境变量之中

完成以上步骤之后,就可以编写图片文本识别的Python脚本了。参考脚本如下:

from pytesser import *

import ImageEnhance

image =
Image.open(‘D:\\xiehao\\workspace\\python\\5.png‘)

#使用ImageEnhance可以增强图片的识别率

enhancer = ImageEnhance.Contrast(image)

image_enhancer = enhancer.enhance(4)

print image_to_string(image_enhancer)

时间: 2024-08-26 10:10:31

pytesser图片文本识别的相关文章

『方案』《女友十年精华》 ORC 图片 文字识别 详解

目的需求: 2008年,遇到一本电子书 <女友十年精华> 觉得很美,想 私藏 这些文章: >网络搜索文章 —— 没有找到: >反编译程序 —— 所有文字 都是图片格式(部分文章的 非规律乱码 即为证明,且试用  Adobe Director 反编译 确是图片无疑) >总计 310篇文章 —— 如何降低 工作复杂度 得到 文本格式的文章? 最后方案: >写区域截屏软件,将一篇文章 截成多图 (图片文字行 有重复): >过滤 文章多图 的背景图片(背景图片 会干扰 O

第二十三节:scrapy爬虫识别验证码(二)图片验证码识别

图片验证码基本上是有数字和字母或者数字或者字母组成的字符串,然后通过一些干扰线的绘制而形成图片验证码. 例如:知网的注册就有图片验证码 首先我们需要获取验证码图片,通过开发者工具我们可以得到验证码url链接 其次就是通过Pillow类库和tesserocr进行识别,代码如下: 1 # -*- coding:utf-8 -*- 2 import tesserocr 3 from PIL import Image 4 import requests 5 6 # 通过url链接获取验证码图片,并写入本

电脑端怎样具体操作图片文字识别?

办公室职员最离不开的就是电脑了,那么大家平时会不会操作图片文字间的转换呢?并且是电脑端的图片文字识别.如果不会的话,可以看看今天小编的分享哈. 图片转文字的具体操作: 第一步:打开OCR文字识别软件,在运行OCR文字识别软件时,在软件页面内左侧功能栏里有图片文字识别.图片转文字.票证识别.图片局部识别.语音识别.语音转文字.截图识别功能. 第二步:选择我们需要的功能进行识别,如极速识别,先添加文件可进行识别.我们的文件可能在桌面上也能在其他地方,添加文件的时候一定要仔细. 第三步:选择好添加的文

自然场景文本识别:基于笔画宽度变换的文本检测

最近在学习自然场景(Natural Scenes)的文本识别(Text Recognition)问题,这一问题也是时下一个非常热门的亟待解决的问题.在阅读学习了一定量的文献资料之后,有了一定收获,本文提到的基于"笔画宽度变换"(Stroke Width Transform)的方法,是目前个人看到比较认同的方法. 对于自然场景的文本识别,一个很重要的问题就在于如何从自然场景的图片中检测与定位出文本信息,考虑到文本的结构.像素.几何变形.背景复杂度.图像分辨率等多种问题带来的干扰,对于文本

字符型图片验证码识别完整过程及Python实现

1   摘要 验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越来越严峻.本文介绍了一套字符验证码识别的完整流程,对于验证码安全和OCR识别技术都有一定的借鉴意义. 2   关键词 关键词:安全,字符图片,验证码识别,OCR,Python,SVM,PIL 3   免责声明 本文研究所用素材来自于某旧Web框架的网站 完全对外公开 的公共图片资源. 本文只做了该网站对外公开的公共图片资源进行了爬取, 并未越权 

Android静态图片人脸识别的完整demo(附完整源码)

Demo功能:利用android自带的人脸识别进行识别,标记出眼睛和人脸位置.点击按键后进行人脸识别,完毕后显示到imageview上. 第一部分:布局文件activity_main.xml [html] view plaincopyprint? <RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tools="http://schemas.android.co

斯坦福第十八课:应用实例:图片文字识别(Application Example: Photo OCR)

18.1  问题描述和流程图 18.2  滑动窗口 18.3  获取大量数据和人工数据 18.4  上限分析:哪部分管道的接下去做 18.1  问题描述和流程图 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中 识别文字要复杂的多. 为了完成这样的工作,需要采取如下步骤: 为了完成这样的工作,需要采取如下步骤: 1. 文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来 2. 字符切分(Character segmentation)——将文

【转】 自然场景文本识别:基于笔画宽度变换的文本检测

最近在学习自然场景(Natural Scenes)的文本识别(Text Recognition)问题,这一问题也是时下一个非常热门的亟待解决的问题.在阅读学习了一定量的文献资料之后,有了一定收获,本文提到的基于“笔画宽度变换”(Stroke Width Transform)的方法,是目前个人看到比较认同的方法. 对于自然场景的文本识别,一个很重要的问题就在于如何从自然场景的图片中检测与定位出文本信息,考虑到文本的结构.像素.几何变形.背景复杂度.图像分辨率等多种问题带来的干扰,对于文本的检测着实

Python人工智能之图片识别,Python3一行代码实现图片文字识别

1.Python人工智能之图片识别,Python3一行代码实现图片文字识别 2.tesseract-ocr安装包和中文语言包 注意: 原文地址:https://www.cnblogs.com/jycjy/p/8799295.html