使用Google开源tesseract OCR用语言库报allow_blob_division解决方案

在使用语音库时候 遇到报错:allow_blob_division,例如使用chi_sim.traineddata;
在chi_sim.traineddata文件目录下,使用命令行执行:

combine_tessdata -e chi_sim.traineddata chi_sim.config

执行完后,在目录下出现chi_sim.config的文件,打开该文件;
在allow_blob_division        F这一行的前面加#,注释掉

即:# allow_blob_division        F

然后,在执行命令行:
combine_tessdata -o chi_sim.traineddata chi_sim.config

到此在使用 chi_sim.traineddata文件就不会报read_params_file: parameter not found: allow_blob_division

当然,要使用上面的命令行,需要安装Tesseract-OCR

时间: 2024-09-29 09:51:06

使用Google开源tesseract OCR用语言库报allow_blob_division解决方案的相关文章

Google 开源的 Python 命令行库:初探 fire

作者:HelloGitHub-Prodesire HelloGitHub 的<讲解开源项目>系列,项目地址:https://github.com/HelloGitHub-Team/Article 一.前言 在本系列前面所有文章中,我们分别介绍了 argparse.docopt 和 click 的主要功能和用法.它们各具特色,都能出色地完成命令行任务.argparse 是面向过程的,需要先设置解析器,再定义参数,再解析命令行,最后实现业务逻辑.docopt 先用声明式的语法定义出参数,再过程式地

Google开源命令行参数解析库gflags

http://blog.csdn.net/lming_08/article/details/25072899 CMDLINE的解析 http://blog.csdn.net/codectq/article/details/17078253 cmdline —— 轻量级的C++命令行解析库 http://www.tuicool.com/articles/z2q2mmm 下载url: https://github.com/tanakh/cmdline https://github.com/gssco

Google 开源的这个库,性能快到让程序员飞起来!

来自| 开发者技术前线  编辑 | 可可 作者:GinoBeFunny 来源:https://url.cn/5cb6Lkw Google开源的一个依赖注入类库Guice,相比于Spring IoC 来说更小更快.Elasticsearch大量使用了Guice,本文简单的介绍下Guice的基本概念和使用方式. 学习目标 概述:了解Guice是什么,有什么特点: 快速开始:通过实例了解Guice: 核心概念:了解Guice涉及的核心概念,如绑定(Binding).范围(Scope)和注入(Injec

ubuntu下使用Tesseract-ocr(编译、安装、使用、训练新的语言库)

本文前半部分是来自http://www.qisanfen.com/?p=185的一篇文章,主要讲了安装.训练的大致流程,注意如果需要训练语言库需要把所需要的库安装完整 后半部分大致是官方wiki的翻译版本 如果只安装,不训练,可以看我的另一篇比较简洁的文章http://blog.csdn.net/yimingsilence/article/details/51276138 关于训练的具体细节可以查看官方wiki : https://github.com/tesseract-ocr/tessera

Python下Tesseract Ocr引擎及安装介绍

1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载. 实际使用tesseract ocr也有两种方式:1- 动态库方式 libtesseract  2  - 执行程序方式 tesseract.exe 由于本人也是python菜鸟一个,所以方式1暂时不会,只好采取方式2. 2.Tesseract安装包下载 Tesseract的relea

值得推荐的开源C/C++框架和库

值得学习的C语言开源项目 - 1. Webbench Webbench是一个在linux下使用的非常简单的网站压测工具.它使用fork()模拟多个客户端同时访问我们设定的URL,测试网站在压力下工作的性能,最多可以模拟3万个并发连接去测试网站的负载能力.Webbench使用C语言编写, 代码实在太简洁,源码加起来不到600行. 下载链接:http://home.tiscali.cz/~cz210552/webbench.html - 2. Tinyhttpd tinyhttpd是一个超轻量型Ht

基于Tesseract OCR的文字识别Android应用开发资料整理

前言 一.Tesseract OCR引擎 Tesseract OCR是HP公司于1985~1995年间开发的商业级OCR(Optical Character Reader, 光学字符阅读器)引擎,并于2005年开放源代码.以下是它sourceforge上的网址: http://sourceforge.net/projects/tesseract-ocr/?source=directory 现在已转移到谷歌的代码服务下: https://code.google.com/p/tesseract-oc

Tesseract ocr 3.02学习记录一

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料.关于中文OCR,目前国内水平较高的有清华文通.汉王.尚书,其产品各有千秋,价格不菲.国外OCR发展较早,像一些大公司,如IBM.微软.HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统.对于

google开源的C++性能分析工具 - gperftools

gperftools是Google提供的一套工具,其中的一个功能是CPU profiler,用于分析程序性能,找到程序的性能瓶颈. 安装 gperftools:http://code.google.com/p/gperftools/downloads/list libunwind:http://download.savannah.gnu.org/releases/libunwind/ 64位操作系统需要安装libunwind,官方推荐版本是libunwind-0.99-beta 安装过程:./c