使用Google开源tesseract OCR用语言库报allow_blob_division解决方案

在使用语音库时候遇到报错：allow_blob_division，例如使用chi_sim.traineddata;
在chi_sim.traineddata文件目录下,使用命令行执行：

combine_tessdata -e chi_sim.traineddata chi_sim.config

执行完后，在目录下出现chi_sim.config的文件，打开该文件；
在allow_blob_division F这一行的前面加#，注释掉

即：# allow_blob_division F

然后，在执行命令行：
combine_tessdata -o chi_sim.traineddata chi_sim.config

到此在使用 chi_sim.traineddata文件就不会报read_params_file: parameter not found: allow_blob_division

当然，要使用上面的命令行，需要安装Tesseract-OCR

时间： 2024-09-29 09:51:06

使用Google开源tesseract OCR用语言库报allow_blob_division解决方案的相关文章

Google 开源的 Python 命令行库：初探 fire

作者:HelloGitHub-Prodesire HelloGitHub 的<讲解开源项目>系列,项目地址:https://github.com/HelloGitHub-Team/Article 一.前言在本系列前面所有文章中,我们分别介绍了 argparse.docopt 和 click 的主要功能和用法.它们各具特色,都能出色地完成命令行任务.argparse 是面向过程的,需要先设置解析器,再定义参数,再解析命令行,最后实现业务逻辑.docopt 先用声明式的语法定义出参数,再过程式地

Google开源命令行参数解析库gflags

http://blog.csdn.net/lming_08/article/details/25072899 CMDLINE的解析 http://blog.csdn.net/codectq/article/details/17078253 cmdline —— 轻量级的C++命令行解析库 http://www.tuicool.com/articles/z2q2mmm 下载url: https://github.com/tanakh/cmdline https://github.com/gssco

Google 开源的这个库，性能快到让程序员飞起来！

来自| 开发者技术前线编辑 | 可可作者:GinoBeFunny 来源:https://url.cn/5cb6Lkw Google开源的一个依赖注入类库Guice,相比于Spring IoC 来说更小更快.Elasticsearch大量使用了Guice,本文简单的介绍下Guice的基本概念和使用方式. 学习目标概述:了解Guice是什么,有什么特点: 快速开始:通过实例了解Guice: 核心概念:了解Guice涉及的核心概念,如绑定(Binding).范围(Scope)和注入(Injec

ubuntu下使用Tesseract-ocr(编译、安装、使用、训练新的语言库)

本文前半部分是来自http://www.qisanfen.com/?p=185的一篇文章,主要讲了安装.训练的大致流程,注意如果需要训练语言库需要把所需要的库安装完整后半部分大致是官方wiki的翻译版本如果只安装,不训练,可以看我的另一篇比较简洁的文章http://blog.csdn.net/yimingsilence/article/details/51276138 关于训练的具体细节可以查看官方wiki : https://github.com/tesseract-ocr/tessera

Python下Tesseract Ocr引擎及安装介绍

1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载. 实际使用tesseract ocr也有两种方式:1- 动态库方式 libtesseract 2 - 执行程序方式 tesseract.exe 由于本人也是python菜鸟一个,所以方式1暂时不会,只好采取方式2. 2.Tesseract安装包下载 Tesseract的relea

值得推荐的开源C/C++框架和库

值得学习的C语言开源项目 - 1. Webbench Webbench是一个在linux下使用的非常简单的网站压测工具.它使用fork()模拟多个客户端同时访问我们设定的URL,测试网站在压力下工作的性能,最多可以模拟3万个并发连接去测试网站的负载能力.Webbench使用C语言编写, 代码实在太简洁,源码加起来不到600行. 下载链接:http://home.tiscali.cz/~cz210552/webbench.html - 2. Tinyhttpd tinyhttpd是一个超轻量型Ht

基于Tesseract OCR的文字识别Android应用开发资料整理

前言一.Tesseract OCR引擎 Tesseract OCR是HP公司于1985~1995年间开发的商业级OCR(Optical Character Reader, 光学字符阅读器)引擎,并于2005年开放源代码.以下是它sourceforge上的网址: http://sourceforge.net/projects/tesseract-ocr/?source=directory 现在已转移到谷歌的代码服务下: https://code.google.com/p/tesseract-oc

Tesseract ocr 3.02学习记录一

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料.关于中文OCR,目前国内水平较高的有清华文通.汉王.尚书,其产品各有千秋,价格不菲.国外OCR发展较早,像一些大公司,如IBM.微软.HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统.对于

google开源的C++性能分析工具 - gperftools

gperftools是Google提供的一套工具,其中的一个功能是CPU profiler,用于分析程序性能,找到程序的性能瓶颈. 安装 gperftools:http://code.google.com/p/gperftools/downloads/list libunwind:http://download.savannah.gnu.org/releases/libunwind/ 64位操作系统需要安装libunwind,官方推荐版本是libunwind-0.99-beta 安装过程:./c