Tesseract-ocr文字识别

当我浏览http://code.google.com/p/tesseract-ocr并下载了几个文件下来之后顿时感到一头雾水，不知该如何下手。网上看到有人在linux操作系统下的实现，

如：

利用开源程序（ImageMagick+tesseract-ocr）实现图像验证码识别

但却很少看到在windows下的相关文章介绍。

接下来我将一步步讲述如何采用tesseract-ocr识别含有中文的图片。

1、下载tesseract-ocr（注意3.0版本之后才支持中文的识别）

tesseract-ocr-setup-3.00.exe

chi_sim.traineddata.gz

2、安装tesseract-ocr

解压缩，双击 tesseract-ocr-setup-3.00.exe即可根据提示一步步安装，本人安装的目录是：D:/Program Files/Tesseract-OCR

在该目录下可看到tesseract.exe文件，这就是我们后面程序中会调用到的运行进程。

3、自定义安装语言包

D:/Program Files/Tesseract-OCR目录下找到/tessdata目录，其是用来存放语言包，可把chi_sim.traineddata.gz 解压缩之后的chi_sim.traineddata文件复制到该目录下即可。

4、编写测试代码

在编写代码之前下载两个jar包：jai_imageio-1.1-alpha.jar、swingx-1.0.jar，可在www.findjar.com 网站上去下载。

[java] view plain copy

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.Iterator;
import java.util.Locale;
import javax.imageio.IIOImage;
import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.ImageWriteParam;
import javax.imageio.ImageWriter;
import javax.imageio.metadata.IIOMetadata;
import javax.imageio.stream.ImageInputStream;
import javax.imageio.stream.ImageOutputStream;
import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
public class ImageIOHelper {
/**
* 图片文件转换为tif格式
* @param imageFile 文件路径
* @param imageFormat 文件扩展名
* @return
*/
public static File createImage(File imageFile, String imageFormat) {
File tempFile = null;
try {
Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
ImageReader reader = readers.next();
ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
reader.setInput(iis);
//Read the stream metadata
IIOMetadata streamMetadata = reader.getStreamMetadata();
//Set up the writeParam
TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
//Get tif writer and set output to file
Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
ImageWriter writer = writers.next();
BufferedImage bi = reader.read(0);
IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
tempFile = tempImageFile(imageFile);
ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
writer.setOutput(ios);
writer.write(streamMetadata, image, tiffWriteParam);
ios.close();
writer.dispose();
reader.dispose();
} catch (IOException e) {
e.printStackTrace();
}
return tempFile;
}
private static File tempImageFile(File imageFile) {
String path = imageFile.getPath();
StringBuffer strB = new StringBuffer(path);
strB.insert(path.lastIndexOf(‘.‘),0);
return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));
}
}

[java] view plain copy

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import org.jdesktop.swingx.util.OS;
public class OCR {
private final String LANG_OPTION = "-l"; //英文字母小写l，并非数字1
private final String EOL = System.getProperty("line.separator");
private String tessPath = "D://Program Files//Tesseract-OCR";
//private String tessPath = new File("tesseract").getAbsolutePath();
public String recognizeText(File imageFile,String imageFormat)throws Exception{
File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
File outputFile = new File(imageFile.getParentFile(),"output");
StringBuffer strB = new StringBuffer();
List<String> cmd = new ArrayList<String>();
if(OS.isWindowsXP()){
cmd.add(tessPath+"//tesseract");
}else if(OS.isLinux()){
cmd.add("tesseract");
}else{
cmd.add(tessPath+"//tesseract");
}
cmd.add("");
cmd.add(outputFile.getName());
cmd.add(LANG_OPTION);
cmd.add("chi_sim");
//cmd.add("eng");
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());
cmd.set(1, tempImage.getName());
pb.command(cmd);
pb.redirectErrorStream(true);
Process process = pb.start();
//tesseract.exe 1.jpg 1 -l chi_sim
int w = process.waitFor();
//删除临时正在工作文件
tempImage.delete();
if(w==0){
BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
String str;
while((str = in.readLine())!=null){
strB.append(str).append(EOL);
}
in.close();
}else{
String msg;
switch(w){
case 1:
msg = "Errors accessing files.There may be spaces in your image‘s filename.";
break;
case 29:
msg = "Cannot recongnize the image or its selected region.";
break;
case 31:
msg = "Unsupported image format.";
break;
default:
msg = "Errors occurred.";
}
tempImage.delete();
throw new RuntimeException(msg);
}
new File(outputFile.getAbsolutePath()+".txt").delete();
return strB.toString();
}
}

[java] view plain copy

import java.io.File;
import java.io.IOException;
public class TestOCR {
/**
* @param args
*/
public static void main(String[] args) {
String path = "d://test//chi.jpg";
try {
String valCode = new OCR().recognizeText(new File(path), "jpg");
System.out.println(valCode);
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
}

通过本人的测试对于中文的识别虽然不是很完美，至少其可支持了，但最大的缺点就是速度慢。中文本来就很复杂，而且其语言包就达到50多M，和英文语言包比起来真是..............

测试图片，可右击“图片另存为”

解析输出结果：

一、引孟4
1. 1 从体验经济到体验设计驷
随着社会生产力发展水平的提高和人类需求层次的升级, 体验经济也就成
为了经济发展的必然趋势。体验经济日渐显现, 出现了服务于它的体验设计。、
设计是创新的重要组成部分。茌强调目主创新的六环i竞下, 申国的企业应
该兖分关注体验设计的新趋势‘。体验设计的理论正茌成为现代企业开发产品和
服务顶目的重要依据。现阶段, IT 领域很早就注意到了这一点, 百度、腾讯、
支付宝、阿里巴巴等着属设有专门的用户体验部, 为其产品和服务增加附加价值,
也更六程度她让用户满意, 最终荻得了最佳企业效益。、
同时7 随看现代产品设计思想的成熟, 产品设计也越来越聚焦于人本身一
7人的存茌, 人的需要7 持别是人的情感需要。设计与人, 人与设计, 设计是
否可以有长远意义, 是否可以印证人的真买存茌, 是否可以帮助人们理解目己,
认识世界。这个问题己偏同于哲学, 但却确买是设计这种文化形式的内茌诉求。
越来越多的产品遍过设计, 茌与人交互的过程申7 使人产生愉悦的体验, 并茌
这个体验的后期, 让人产生反思, 遍过反思得以认识自己7 发展自己。找想这
点是设计成为一种优势文化, 而所要肩负的必要责任。 ~

测试中发现的几个注意点：

1、若是一份英文文档其对英文字母o绝大部分会识别为数字0。所以若是英文和数字的文档，最好不要加入中文语言包，而是引入eng.traineddata语言包到D:/Program Files/Tesseract-OCR/tessdata目录下。

看到OCR 类31-32行代码

cmd.add("chi_sim");
//cmd.add("eng");

去掉 //cmd.add("eng");前的注释，但记得在cmd.add("chi_sim");前加上注释哦，不然你就看不到效果了哦。

2、测试中还发现一个问题，有时候在目录下已经生成临时文件并且识别出的文字写入到output.txt,但是在int w = process.waitFor();则阻塞了停止运行再也没有反应了，以致控制台始终没有打印出文字。

解析（参考）：刚开始想到直接去掉这个语句算了，但是运行的时候会报运行错误。最后在http://www.cnblogs.com/xxpal/articles/824963.html看到下面一段文字说明：在 Windows平台上，运行被调用程序的DOS窗口在程序执行完毕后往往并不会自动关闭，从而导致Java应用程序阻塞在waitfor()语句。导致该现象的一个可能的原因是，该可执行程序的标准输出比较多，而运行窗口的标准输出缓冲区不够大。解决的办法是，利用Java中Process类提供的方法让 Java虚拟机截获被调用程序的DOS运行窗口的标准输出，在waitfor()命令之前读出窗口的标准输出缓冲区中的内容。

解决办法：在int w = process.waitFor();代码行前面加上

String s;
BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(process.getInputStream()));
while((s=bufferedReader.readLine()) != null);

int w = process.waitFor();

再次运行试试看吧。

时间： 2024-10-04 15:41:27

Tesseract-ocr文字识别

Tesseract-ocr文字识别的相关文章

ABBYY FineReader Engine泰比OCR文字识别控件桌面版说明

最新OCR文字识别软件提高OCR性能的方法

精品软件推荐 ABBYY FineReader 世界排名第一的 OCR 文字识别工具

ocr文字识别软件ABBYY FineReader介绍

OCR文字识别软件拆分对页和校正文本方向的教程

怎么给OCR文字识别软件设置正确的扫描分辨率

OCR文字识别软件：数字信息化不可或缺的重要组成部分

浅析android OCR文字识别

怎么提高OCR文字识别软件的识别正确率

OCR文字识别技术的用处