ORC相关的库介绍和应用

将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)

OCR库:Pillow、Tesseract、NumPy

Pillow

Pillow可以对图片进行预处理,比如图片背景色不是纯白,而是渐进色,那么就可以利用Pillow进行预处理得到相对清晰的图片来提供给Tesseract去识别。

Tesseract

Tesseract可以通过训练识别出任何字体(要求字体风格保持不变)

安装Tesseract

Tesseract不是python的库,所以不是通过import的方式导入,而是需要去下载安装,截至目前最新版本是 3.02.02。下载地址

简体中文字库文件下载地址为:http://download.csdn.net/detail/wanghui2008123/7621567

下载完成后解压,然后将该文件剪切到tessdata目录下去就可以了。字库文件:chi_sim.traineddata

Tesseract默认安装在C盘,默认安装是不是会自动添加环境变量,我没试。

我是安装在F盘  F:\Program Files\Tesseract-OCR。安装成功后,再去设置一下环境变量,把安装的路劲加到环境变量里就好了,或者执行指令:

#setx TESSDATA_PREFIX F:\Program Files\Tesseract OCR\

安装的步骤我就不赘述了,安装的过程中出现失败的情况,没有关系,继续就OK。

接着去CMD指令界面中输入:C:\Users\Administrator>tesseract

如果出现下面的结果,那就是安装成功了!

为了验证下是否能识别成功,我在D盘根目录下放了一张图片

然后在cmd指令界面中输入如下指令:

C:\Users\Administrator>tesseract e:\img.jpg e:\img -l chi_sim

结果:(img默认是txt格式)

泪崩~

这识别是个什么几把玩意啊???不管识别的怎么样,人家也是识别了一部分不是?

NumPy

NumPy 并非解决OCR 问题时必须使用的库,但是如果你想训练Tesseract 识别,那么就会用到它。NumPy 是一个非常强大的库,具有大量线性代数以及大规模科学计算的方法。

原文地址:https://www.cnblogs.com/zhouwp/p/8319528.html

时间: 2024-08-15 06:38:57

ORC相关的库介绍和应用的相关文章

【转】OpenGL相关函数库介绍

原文:http://blog.chinaunix.net/uid-20638550-id-1909182.html OpenGL 函数库相关的API有核心库(gl).实用库(glu).辅助库(aux).实用工具库(glut).窗口库(glx.agl.wgl)和扩展函数库等. 从图1可以看出,gl是核心,glu是对gl的部分封装.glx.agl.wgl 是针对不同窗口系统的函数.glut是为跨平台的OpenGL程序的工具包,比aux功能强大.扩展函数库是硬件厂商为实现硬件更新利用OpenGL的扩

手思3.0 第三方库介绍

手思3.0第三方库介绍 AFNetworking https://github.com/AFNetworking/AFNetworking MBProgressHUD    https://github.com/jdg/MBProgressHUD SVProgressHUD https://github.com/TransitApp/SVProgressHUD SDWebImage   https://github.com/rs/SDWebImage FMDB          https://

python 常库介绍及安装方法

文大赛,秀绝招,赢无人机! python 常库介绍及安装方法 标签: PYTHON库 2016-10-13 15:32 798人阅读 评论(0) 收藏 举报  分类: 其他(33)  bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheetahcherrypy:一个WEB frameworkctypes:用来调用动态链接库DBUtils:数据库连接池django:一个WEB frameworkdocutils:用来写文档的dpkt:数据包的解包和组包My

Alljoyn瘦客户端库介绍(官方文档翻译)

Alljoyn瘦客户端库介绍(1) 1.简介 本文档对AllJoynTM瘦客户端的核心库文件(AJTCL)进行了详尽的介绍.本文档介绍了系统整体架构,AllJoyn框架结构,并着重于介绍如何将嵌入式设备加入AllJoyn系统整体架构中.1.1目的 本文档介绍了如何使一个受限于功耗.计算能力和内存的设备(嵌入式设备)加入AllJoyn分布式系统.具体而言,本文档包括了对AllJoyn面向嵌入式系统的方面的介绍,并着重描述了基于AllJoyn的系统的各个组件是如何与嵌入式设备协作以构建一个基于接近式

重新发现Oracle太美之awr相关脚本简单介绍

大家知道在$ORACLE_HOME/rdbms/admin下,有如下的相关脚本(我的环境为11.2.0.4.2): [[email protected] ~]$ cd $ORACLE_HOME/rdbms/admin [[email protected] admin]$ ls -ltr awr* -rw-r--r-- 1 oracle oinstall  1999 Oct 24  2003 awrrpt.sql -rw-r--r-- 1 oracle oinstall 49166 Sep  1

走进C++程序世界------IO标准库介绍

流概述 流是C++标准的组成部分,流的主要目标是,将从磁盘读取文件或将输入写入控制台屏幕的问题封装起来,创建流后程序员就可以使用它,流将负责处理所有的细节. IO类库 在C++输入?输出操作是通过C++系统提供的完成I/O操作的一组类实现的.主要包括: 标准流类:处理与标准输入设备(键盘)和输出设备(显示器)关联的数据流 文件流类:处理与磁盘文件关联的数据流 字符串流类:利用内存中的字符数组处理数据的输入输出 异常类等:处理异常错误. 标准IO对象: 包含iostream类的C++程序启动时,将

SD/MMC相关寄存器的介绍

熟悉SD/MMC的相关寄存器对协议的理解有一定的辅助作用,所以这篇文章来介绍一下SD/MMC相关的寄存器有哪些呢? 1.SD卡内部架构 在熟悉SD/MMC相关寄存器之前,我们先来看看SD卡的内部架构是怎么样的,如下图所示: 2.SD/MMC相关寄存器的介绍 从上图中总结出:SD卡内部有7个寄存器. 一.OCR,CID,CSD和SCR寄存器保存卡的配置信息; 二.RCA寄存器保存着通信过程中卡当前暂时分配的地址(只适合SD模式); 三.CSR寄存器卡状态(Card Status)和SSR寄存器SD

实战篇一 python常用模块和库介绍

# [email protected] coding: utf-8 [email protected] -- Python 常用模块和库介绍 第一部分:json模块介绍 import json 将一个Python数据结构转换为JSON: dict_ = {1:2, 3:4, "55":"66"} # test json.dumps print type(dict_), dict_ json_str = json.dumps(dict_) print "js

DLNA&UPnP开发笔记(4)— PlatinumKit库介绍

前面几篇文章主要从理论上介绍了DLNA和UPnP协议的相关概念和知识点,本文主要介绍一下PlatinumKit库,该库实现了UPnP协议栈,代码写得非常漂亮,但文档不多,所以希望我的介绍和引导能够帮助初学者更快速地掌握该库的应用. 1. PlatinumKit库的官方网站 http://www.plutinosoft.com/platinum/ 2. PlatinumKit库的特点 (1)由C++编写 (2)支持Windows, Mac OSX, Linux, iPhone, Android (