(1)安装过程
(2)安装中文字库
识别中文需要安装字库,参考这个博客:https://www.cnblogs.com/jiyu-hlzy/p/12191463.html
(3)安装过程出现的错误
安装后执行程序时出现了以下错误:
这个错误是找不到tesseract.exe造成的,但是我又在pytesseract.py中添加了路径,最终发现是由于下面的原因造成的:
(4)测试
参考别的博客,写了几行简单的测试代码,代码如下:
1 # encoding: utf-8 2 3 import pytesseract 4 from PIL import Image 5 import os 6 7 8 if __name__ == "__main__": 9 print (os.getcwd()) 10 im_ch = Image.open(‘test.png‘) 11 12 print(‘========识别中文========‘) 13 print(pytesseract.image_to_string(im_ch, lang=‘chi_sim‘))
测试的图片和结果如下:
可以看到,测试的图片不是分清晰,测试也出现了很多错别字。
(5)改进
接着又去找了一些博客来看,都在说可以使用百度AI来提高精度,参考这个博客实现了一下:https://www.cnblogs.com/adam012019/p/11440353.html
效果如下:
可以看到,效果已经非常不错了。
至此,这篇博客就写到这里为止了,其实我是突然想弄一个这个,因为在网上找的在线图片识别都是要收费的,我就想为何不自己写一个,就在网上找了几篇博客看。网友的力量真是强大,再次感谢以上博客的网友。
附录:
百度智能云,文字识别API简介:https://cloud.baidu.com/doc/OCR/s/Ek3h7xypm。
可以去开通一个,每天的免费额度还是够个人使用了。
原文地址:https://www.cnblogs.com/mrlayfolk/p/12617077.html
时间: 2024-10-10 02:19:04