tesseract-ocr图片识别开源工具

tesseract-ocr图片识别开源工具

今天看同事的ppt,提到了图片识别,又tesseract-ocr,觉得不错,试一下,如果效果好可以用来做验证码的识别
http://code.google.com/p/tesseract-ocr/

tesseract是一款开源工具,我安装了Windows版试水先

1、首先登录首页在‘下载’页面下载

Java代码  

  1. tesseract-ocr-setup-xx.xx.exe
  2. chi_sim.traineddata.gz   中文语言包

2、双击即可安装tesserract-ocr,

3、安装中文语言包,将语言包 chi_sim.traineddata.gz   解压到 Tesseract-OCR下

4、写测试代码:

Java代码  

  1. package com.taobao.voc.tesseract;
  2. import java.io.BufferedReader;
  3. import java.io.File;
  4. import java.io.FileInputStream;
  5. import java.io.InputStreamReader;
  6. import java.util.ArrayList;
  7. import java.util.List;
  8. import org.jdesktop.swingx.util.OS;
  9. public class OCR {
  10. private final String LANG_OPTION = "-l";  //英文字母小写l,并非数字1
  11. private final String EOL = System.getProperty("line.separator");
  12. private String tessPath = "D://java_tools//Tesseract-OCR";
  13. //private String tessPath = new File("tesseract").getAbsolutePath();
  14. public String recognizeText(File imageFile,String imageFormat)throws Exception{
  15. File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
  16. File outputFile = new File(imageFile.getParentFile(),"output");
  17. StringBuffer strB = new StringBuffer();
  18. List<String> cmd = new ArrayList<String>();
  19. if(OS.isWindowsXP()){
  20. cmd.add(tessPath+"//tesseract");
  21. }else if(OS.isLinux()){
  22. cmd.add("tesseract");
  23. }else{
  24. cmd.add(tessPath+"//tesseract");
  25. }
  26. cmd.add("");
  27. cmd.add(outputFile.getName());
  28. cmd.add(LANG_OPTION);
  29. //cmd.add("chi_sim");
  30. cmd.add("eng");
  31. ProcessBuilder pb = new ProcessBuilder();
  32. pb.directory(imageFile.getParentFile());
  33. cmd.set(1, tempImage.getName());
  34. pb.command(cmd);
  35. pb.redirectErrorStream(true);
  36. Process process = pb.start();
  37. //tesseract.exe 1.jpg 1 -l chi_sim
  38. int w = process.waitFor();
  39. //删除临时正在工作文件
  40. tempImage.delete();
  41. if(w==0){
  42. BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
  43. String str;
  44. while((str = in.readLine())!=null){
  45. strB.append(str).append(EOL);
  46. }
  47. in.close();
  48. }else{
  49. String msg;
  50. switch(w){
  51. case 1:
  52. msg = "Errors accessing files.There may be spaces in your image‘s filename.";
  53. break;
  54. case 29:
  55. msg = "Cannot recongnize the image or its selected region.";
  56. break;
  57. case 31:
  58. msg = "Unsupported image format.";
  59. break;
  60. default:
  61. msg = "Errors occurred.";
  62. }
  63. tempImage.delete();
  64. throw new RuntimeException(msg);
  65. }
  66. new File(outputFile.getAbsolutePath()+".txt").delete();
  67. return strB.toString();
  68. }
  69. }

Java代码  

  1. package com.taobao.voc.tesseract;
  2. import java.awt.image.BufferedImage;
  3. import java.io.File;
  4. import java.io.IOException;
  5. import java.util.Iterator;
  6. import java.util.Locale;
  7. import javax.imageio.IIOImage;
  8. import javax.imageio.ImageIO;
  9. import javax.imageio.ImageReader;
  10. import javax.imageio.ImageWriteParam;
  11. import javax.imageio.ImageWriter;
  12. import javax.imageio.metadata.IIOMetadata;
  13. import javax.imageio.stream.ImageInputStream;
  14. import javax.imageio.stream.ImageOutputStream;
  15. import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
  16. public class ImageIOHelper {
  17. /**
  18. * 图片文件转换为tif格式
  19. * @param imageFile 文件路径
  20. * @param imageFormat 文件扩展名
  21. * @return
  22. */
  23. public static File createImage(File imageFile, String imageFormat) {
  24. File tempFile = null;
  25. try {
  26. Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
  27. ImageReader reader = readers.next();
  28. ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
  29. reader.setInput(iis);
  30. //Read the stream metadata
  31. IIOMetadata streamMetadata = reader.getStreamMetadata();
  32. //Set up the writeParam
  33. TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
  34. tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
  35. //Get tif writer and set output to file
  36. Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
  37. ImageWriter writer = writers.next();
  38. BufferedImage bi = reader.read(0);
  39. IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
  40. tempFile = tempImageFile(imageFile);
  41. ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
  42. writer.setOutput(ios);
  43. writer.write(streamMetadata, image, tiffWriteParam);
  44. ios.close();
  45. writer.dispose();
  46. reader.dispose();
  47. } catch (IOException e) {
  48. e.printStackTrace();
  49. }
  50. return tempFile;
  51. }
  52. private static File tempImageFile(File imageFile) {
  53. String path = imageFile.getPath();
  54. StringBuffer strB = new StringBuffer(path);
  55. strB.insert(path.lastIndexOf(‘.‘),0);
  56. return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));
  57. }
  58. }

测试代码

Java代码  

  1. package com.taobao.voc.tesseract;
  2. import java.io.File;
  3. import java.io.IOException;
  4. public class TestOCR {
  5. /**
  6. * @param args
  7. */
  8. public static void main(String[] args) {
  9. String path = "d://test4.jpg";
  10. try {
  11. String valCode = new OCR().recognizeText(new File(path), "jpg");
  12. System.out.println(valCode);
  13. } catch (IOException e) {
  14. e.printStackTrace();
  15. } catch (Exception e) {
  16. e.printStackTrace();
  17. }
  18. }
  19. }

String path = "d://test4.jpg"; 修改为需要测试的图片,最好全中文,如果因为请更换语言包,OCR类中cmd.add("chi_sim");

时间: 2024-10-10 06:28:35

tesseract-ocr图片识别开源工具的相关文章

在线图片识别文字工具推荐【免费使用】

对于写PDF或者是图片上的文字,想要从图片中提取文字,手打太麻烦,找到一个不过的在线图片识别文字的工具,免费试用: 他就是华为的:在线图片转文字 地址: https://www.huaweicloud.com/product/ocr/image-to-txt.html 原文地址:https://www.cnblogs.com/e0yu/p/11819733.html

Android开发学习之路-GSON使用心得(OCR图片识别)

在安卓中解析JSON串可以使用的方法有很多,比如说用官方提供的JSONObject或者谷歌提供的开源库GSON,以及一些第三方开源库. 这里用的是GSON,为了测试方便,借助了一个百度的api,一个图片识别的api,向服务器请求之后,服务器会返回一个JSON串来描述图片识别的结果,我们要做的是解析这个JSON获得里面的数据,并且书出来. 这里是图片 接下来是使用api,这里不解释,因为也不是重点,贴一下代码 1 String httpUrl = "http://apis.baidu.com/id

python实现百度OCR图片识别

一.直接上代码 import base64 import requests class CodeDemo: def __init__(self,AK,SK,code_url,img_path): self.AK=AK self.SK=SK self.code_url=code_url self.img_path=img_path self.access_token=self.get_access_token() def get_access_token(self): token_host = '

[Python][爬虫]利用OCR技术识别图形验证码

ocr图片识别通常可以利用tesserocr模块,将图片中内容识别出来并转换为text并输出 Tesserocr是python的一个OCR识别库,是对tesseract做的一层python APT封装.在安装Tesserocr前,需要先安装tesseract tessrtact文件: https://digi.bib.uni-mannheim.de/tesseract/ python安装tessocr: 下载对应的.whl文件安装(这个包pip方式容易出错) tesseract 与对应的tess

Tesseract OCR集成Android Studio实现OCR识别

Tesseract OCR集成Android Studio实现OCR识别 介绍 Tesseract OCR谷歌开源的OCR识别引擎,支持多国文字包括中文简体与繁体.最新的版本是3.x.可以通过安装程序安装在机器上然后通过命令行运行该程序识别各种图片中的文字.同时还提供二次开发包,支持二次开发包括C.C++语言.也可以被移植到Android平台实现移动应用领域的OCR识别APP. 下载 在Android平台上使用Tesseract OCR首先要下载Tess2工程,它是专门针对Android平台编译

基于Tesseract OCR的文字识别Android应用开发资料整理

前言 一.Tesseract OCR引擎 Tesseract OCR是HP公司于1985~1995年间开发的商业级OCR(Optical Character Reader, 光学字符阅读器)引擎,并于2005年开放源代码.以下是它sourceforge上的网址: http://sourceforge.net/projects/tesseract-ocr/?source=directory 现在已转移到谷歌的代码服务下: https://code.google.com/p/tesseract-oc

精品软件 推荐 ABBYY FineReader 世界排名第一的 OCR 文字识别工具

ABBYY FineReader 是世界排名第一的 OCR 文字识别工具,提供高效和精准的文档识别.数据提取解决方案,支持多国字符和彩色文件识别,主要用于将扫描图像.图片型PDF转化成可编辑的文本. ABBYY FineReader 可以看作是超级无敌的 PDF 转换器,能转换任意类型的 PDF,其他 PDF 转换工具.或清华紫光OCR.尚书七号.汉王OCR等在它面前都可谓是浮云.比较常用的功能为:扫描到 Word.将PDF/图像.图片转换为 Word 文档或者可编辑/可搜索的PDF文档,另外也

如何在迅捷OCR文字识别软件中进行图片局部识别

相信很多朋友都知道OCR文字识别,通过OCR识别可以快速的将图片文件中的文字识别出来转换成文字格式,那如果是图片局部识别的话又该如何去操作呢,下面就来为大家讲解一下. 使用工具:迅捷OCR文字识别软件. 第一步.先做好准备工作,在电脑中将需要使用到的文字识别工具下载安装到自己的电脑中去,接下来进行图片局部识别的步骤会使用到. 第二步.软件安装好双击图标将其打开,进入到整个软件的基本板块,点击上方图片局部识别模块. 第三步.接着就可以将图片添加进去了,选择一张图片并打开,如图所示: 第四步.图片添

使用迅捷OCR文字识别软件怎么将图片转Word

如何将图片转Word呢?办公中我们都会在电脑上收到很多带有文字信息的图片,那么如果我们需要对这些信息进行整理归纳,这时候就需要将图片转换到Word请添加链接描述一类的文档中进行编辑了,通过使用文字识别软件就可以去进行操作了,下面一起来看看具体的步骤吧! 使用到的工具:迅捷OCR文字识别软件. 第一步.首先要做好准备工作,将需要的OCR文字识别软件在电脑中准备好,同时还需要在电脑上准备好一张带有文字的图片. 第二步.打开软件,在弹出的添加文件的窗口,进你需要识别转换的图片添加进来,如下图所示: 第