python ocr(光学文字识别) 学习笔记 (一)

参考资料:500 lines or less ocr

我们的OCR系统主要由5部分组成,分别写在5个文件之中。它们分别是:

  • 客户端(ocr.js)
  • 服务器(server.py)
  • 简单的用户界面(ocr.html)
  • 基于反向传播训练的ANN(ocr.py)
  • ANN的实现脚本(neuralnetworkdesign.py)

虽然界面服务器用户界面不是我们的重点,但由于笔者水平有限,必须要从这些地方撸起。首先看最简单的用户界面,它将是我们使用的入口

<html>
<head>
	<script src="ocr.js"></script>
	<link rel="stylesheet" type="text/css" href="ocr.css">
</head>
<body >
	<div id="main-container" style="text-align: center;">
		<h1>OCR Demo</h1>
		<canvas id="canvas" width="200" height="200"></canvas>
		<form name="input">
			<p>Digit: <input id="digit" type="text"> </p>
			<input type="button" value="Train" onclick="ocrDemo.train()">
			<input type="button" value="Test" onclick="ocrDemo.test()">
			<input type="button" value="Reset" onclick="ocrDemo.resetCanvas();"/>
		</form>
	</div>
</body>
</html>

canvas是一个必须由脚本绘制的图形容器。除此之外我们定义了三个按钮调用js的处理函数

以下是完整的js脚本ocr.js

/**
  * This module creates a 200x200 pixel canvas for a user to draw
  * digits. The digits can either be used to train the neural network
  * or to test the network‘s current prediction for that digit.
  *
  * To simplify computation, the 200x200px canvas is translated as a 20x20px
  * canvas to be processed as an input array of 1s (white) and 0s (black) on
  * on the server side. Each new translated pixel‘s size is 10x10px
  *
  * When training the network, traffic to the server can be reduced by batching
  * requests to train based on BATCH_SIZE.
  */
var ocrDemo = {
    CANVAS_WIDTH: 200,
    TRANSLATED_WIDTH: 20,
    PIXEL_WIDTH: 10, // TRANSLATED_WIDTH = CANVAS_WIDTH / PIXEL_WIDTH
    BATCH_SIZE: 1,

    // Server Variables
    PORT: "8000",
    HOST: "http://localhost",

    // Colors
    BLACK: "#000000",
    BLUE: "#0000ff",

    trainArray: [],
    trainingRequestCount: 0,

    onLoadFunction: function() {
        this.resetCanvas();
    },

    resetCanvas: function() {
        var canvas = document.getElementById(‘canvas‘);
        var ctx = canvas.getContext(‘2d‘);

        this.data = [];
        ctx.fillStyle = this.BLACK;
        ctx.fillRect(0, 0, this.CANVAS_WIDTH, this.CANVAS_WIDTH);
        var matrixSize = 400;
        while (matrixSize--) this.data.push(0);
        this.drawGrid(ctx);

        canvas.onmousemove = function(e) { this.onMouseMove(e, ctx, canvas) }.bind(this);
        canvas.onmousedown = function(e) { this.onMouseDown(e, ctx, canvas) }.bind(this);
        canvas.onmouseup = function(e) { this.onMouseUp(e, ctx) }.bind(this);
    },

    drawGrid: function(ctx) {
        for (var x = this.PIXEL_WIDTH, y = this.PIXEL_WIDTH; x < this.CANVAS_WIDTH; x += this.PIXEL_WIDTH, y += this.PIXEL_WIDTH) {
            ctx.strokeStyle = this.BLUE;
            ctx.beginPath();
            ctx.moveTo(x, 0);
            ctx.lineTo(x, this.CANVAS_WIDTH);
            ctx.stroke();

            ctx.beginPath();
            ctx.moveTo(0, y);
            ctx.lineTo(this.CANVAS_WIDTH, y);
            ctx.stroke();
        }
    },

    onMouseMove: function(e, ctx, canvas) {
        if (!canvas.isDrawing) {
            return;
        }
        this.fillSquare(ctx, e.clientX - canvas.offsetLeft, e.clientY - canvas.offsetTop);
    },

    onMouseDown: function(e, ctx, canvas) {
        canvas.isDrawing = true;
        this.fillSquare(ctx, e.clientX - canvas.offsetLeft, e.clientY - canvas.offsetTop);
    },

    onMouseUp: function(e) {
        canvas.isDrawing = false;
    },

    fillSquare: function(ctx, x, y) {
        var xPixel = Math.floor(x / this.PIXEL_WIDTH);
        var yPixel = Math.floor(y / this.PIXEL_WIDTH);
        this.data[((xPixel - 1)  * this.TRANSLATED_WIDTH + yPixel) - 1] = 1;

        ctx.fillStyle = ‘#ffffff‘;
        ctx.fillRect(xPixel * this.PIXEL_WIDTH, yPixel * this.PIXEL_WIDTH, this.PIXEL_WIDTH, this.PIXEL_WIDTH);
    },

    train: function() {
        var digitVal = document.getElementById("digit").value;
        if (!digitVal || this.data.indexOf(1) < 0) {
            alert("Please type and draw a digit value in order to train the network");
            return;
        }
        this.trainArray.push({"y0": this.data, "label": parseInt(digitVal)});
        this.trainingRequestCount++;

        // Time to send a training batch to the server.
        if (this.trainingRequestCount == this.BATCH_SIZE) {
            alert("Sending training data to server...");
            var json = {
                trainArray: this.trainArray,
                train: true
            };

            this.sendData(json);
            this.trainingRequestCount = 0;
            this.trainArray = [];
        }
    },

    test: function() {
        if (this.data.indexOf(1) < 0) {
            alert("Please draw a digit in order to test the network");
            return;
        }
        var json = {
            image: this.data,
            predict: true
        };
        this.sendData(json);
    },

    receiveResponse: function(xmlHttp) {
        if (xmlHttp.status != 200) {
            alert("Server returned status " + xmlHttp.status);
            return;
        }
        var responseJSON = JSON.parse(xmlHttp.responseText);
        if (xmlHttp.responseText && responseJSON.type == "test") {
            alert("The neural network predicts you wrote a \‘" + responseJSON.result + ‘\‘‘);
        }
    },

    onError: function(e) {
        alert("Error occurred while connecting to server: " + e.target.statusText);
    },

    sendData: function(json) {
        var xmlHttp = new XMLHttpRequest();
        xmlHttp.open(‘POST‘, this.HOST + ":" + this.PORT, false);
        xmlHttp.onload = function() { this.receiveResponse(xmlHttp); }.bind(this);
        xmlHttp.onerror = function() { this.onError(xmlHttp) }.bind(this);
        var msg = JSON.stringify(json);
        xmlHttp.setRequestHeader(‘Content-length‘, msg.length);
        xmlHttp.setRequestHeader("Connection", "close");
        xmlHttp.send(msg);
    }
}

虽然javascript本来是不支持类的,但可以用“极简主义法”的方式定义类,参看:http://www.ruanyifeng.com/blog/2012/07/three_ways_to_define_a_javascript_class.html

如我们的var ocrDemo就可以看作一个以极简主义法定义的类。而this指针是js语言的一个关键字,它在函数调用的时候自动生成,并且它总是指向调用函数的那个对象

如此,结合canvas的一些方法,画画过程就不难看懂了:我们把10*10的一个真实像素化为一个我们的像素,为网格填充颜色后,监听鼠标动作,每次点击和move调用

fillSquare 函数填充一个方块

解决了画画问题,下一步要将数据传输到服务器,让它进行相关的学习,其中

    sendData: function(json) {
        var xmlHttp = new XMLHttpRequest();
        xmlHttp.open(‘POST‘, this.HOST + ":" + this.PORT, false);
        console.log(this.HOST+":"+this.PORT)
        xmlHttp.onload = function() { this.receiveResponse(xmlHttp); }.bind(this);
        xmlHttp.onerror = function() { this.onError(xmlHttp) }.bind(this);
        var msg = JSON.stringify(json);
        xmlHttp.setRequestHeader(‘Content-length‘, msg.length);
        xmlHttp.setRequestHeader("Connection", "close");
        console.log("fuck")
        xmlHttp.send(msg);
    }

xmlhttprequest对象可以用于幕后和服务器交换数据

该对象有如下方法:

abort() 取消当前的请求。
getAllResponseHeaders() 返回头信息。
getResponseHeader() 返回指定的头信息。
open(method,url,async,uname,pswd) 规定请求的类型,URL,请求是否应该进行异步处理,以及请求的其他可选属性。

method:请求的类型:GET 或 POST
url:文件在服务器上的位置
async:true(异步)或 false(同步)

send(string) 发送请求到服务器。

string:仅用于 POST 请求

setRequestHeader() 把标签/值对添加到要发送的头文件。

值得注意的是open方法中的同步(false)异步(true)请求,如果设置为同步,那么在未收到返回数据之前,浏览器页面是不能进行其他操作的。如果设置为同步,则可以进行其他操作,但服务器返回的数据可能收不到了。笔者没有在windows下装科学计算环境,服务器挂在了阿里云上。这又带来了一些问题:

1.由于需要实时响应,向远程服务器发送的速度非常慢

2.跨域访问通常情况下被拒绝

3.服务器端若不关闭防火墙将不能收到post请求

什么是跨域访问呢?从一个域名的网页访问另一网页的资源时,只要协议域名端口有任何一个不同,就被称为跨域访问。跨域访问由于一些安全问题,通常情况是拒绝的

我们需要在服务器端处理post请求时添加报文头部 s.send_header("Access-Control-Allow-Origin", "*")

其中*代表任意,即我们允许任意域访问。这其中又有一个细节,当跨域访问无权限时,服务端还是能够收到请求报文的,但不会对它进行处理

服务器部分源码如下:

import BaseHTTPServer
import json
from ocr import OCRNeuralNetwork
import numpy as np

HOST_NAME = ‘localhost‘
PORT_NUMBER = 8000
HIDDEN_NODE_COUNT = 15

# Load data samples and labels into matrix
data_matrix = np.loadtxt(open(‘data.csv‘, ‘rb‘), delimiter = ‘,‘)
data_labels = np.loadtxt(open(‘dataLabels.csv‘, ‘rb‘))

# Convert from numpy ndarrays to python lists
data_matrix = data_matrix.tolist()
data_labels = data_labels.tolist()

# If a neural network file does not exist, train it using all 5000 existing data samples.
# Based on data collected from neural_network_design.py, 15 is the optimal number
# for hidden nodes
nn = OCRNeuralNetwork(HIDDEN_NODE_COUNT, data_matrix, data_labels, list(range(5000)));

class JSONHandler(BaseHTTPServer.BaseHTTPRequestHandler):
    def do_POST(s):
        print "fuck"
        response_code = 200
        response = ""
        var_len = int(s.headers.get(‘Content-Length‘))
        content = s.rfile.read(var_len);
        payload = json.loads(content);

        if payload.get(‘train‘):
            nn.train(payload[‘trainArray‘])
            nn.save()
        elif payload.get(‘predict‘):
            try:
                response = {"type":"test", "result":nn.predict(str(payload[‘image‘]))}
            except:
                response_code = 500
        else:
            response_code = 400

        s.send_response(response_code)
        s.send_header("Content-type", "application/json")
        s.send_header("Access-Control-Allow-Origin", "*")
        s.end_headers()
        if response:
            s.wfile.write(json.dumps(response))
        return

    Page = ‘‘‘    <html>
    <body>
    <p>Hello, web!</p>
    </body>
    </html>
    ‘‘‘

    # Handle a GET request.
    def do_GET(self):
        self.send_response(200)
        self.send_header("Content-type", "text/html")
        self.send_header("Content-Length", str(len(self.Page)))
        self.end_headers()
        self.wfile.write(self.Page)

if __name__ == ‘__main__‘:
    server_class = BaseHTTPServer.HTTPServer;
    httpd = server_class((HOST_NAME, PORT_NUMBER), JSONHandler)

    try:
        httpd.serve_forever()
    except KeyboardInterrupt:
        pass
    else:
        print "Unexpected server exception occurred."
    finally:
        httpd.server_close()
 

逻辑也不难理解。先预处理数据,然后使用basehttpserver开启服务器,重写post请求

aseHTTPRequestHandler 实例有下列方法:

handle()
调用 handle_one_request()一次 (或,如果能够持续连接,多次) 处理进来的 HTTP 请求。你从不需要重载它;替代,实现对应的 do_*() 方法。

handle_one_request()
这个方法将解析和分派请求到对应的 do_*() 方法。你从不需要重载它。

send_error(code[, message])
发送并记录一个完整的错误回复到客户端。数字的 code 指定 HTTP 错误代码,以 message 作为可选的,更多指定的文本。全套的头被发送,后面紧跟使用 the error_message_format 类变量组成的文本。

send_response(code[, message])
发送一个响应头并记录已接收的请求。HTTP 响应行被发送,后面紧跟 Server 和 Date 头。这两个头的值分别地从 version_string() 和 date_time_string() 方法中获得。

send_header(keyword, value)
编写一个指定的 HTTP 头到输出流。 keyword 应该指定头关键字,value 指定它的值。

end_headers()
发送一个空白行,表示响应中的 HTTP 头结束。

log_request([code[, size]])
记录一个已接收的 (成功的) 请求。code 指定关联响应的数字的 HTTP 代码。如果响应的大小可用,那么它应该作为 size 参数被传递。

log_error(...)
当一个请求不能被完成时记录一个错误。缺省,它传递信息给 log_message(),因此它取相同的参数 (format 和 附加值)。

log_message( format,...)
记录一个随机信息给 sys.stderr。典型地重载创建自定义的错误日志结构。 format 参数是一个标准的printf风格的格式化字符串,附加参数给 log_message() 用于输出格式。客户端地址和当前的日期时间被作为记录的每个信息的前缀。

version_string()
返回服务器软件的版本字符串。这是一个 server_version 和 sys_version 类变量的联合。

date_time_string([timestamp])
返回通过 timestamp 给定的日期和时间(必须是由 time.time()返回的格式),格式化一个信息头。如果 timestamp 被省略,它使用当前的日期和时间。

结果像 ‘Sun, 06 Nov 1994 08:49:37 GMT‘。2.5 版本中的新特性: timestamp 参数。

log_date_time_string()
返回当前的日期和时间,格式化日志。

address_string()
返回客户端地址,格式化日志。一个名称的查找被执行在客户端的IP地址上。

如此基础部分就解读完成啦

时间: 2024-10-13 11:16:01

python ocr(光学文字识别) 学习笔记 (一)的相关文章

python ocr(光学文字识别)学习笔记 (二)

参考资料:500 lines or less ocr 其中包括神经网络算法的简单介绍,如果看不懂您需要使用谷歌翻译呢 在这一节内容中,我们将对实现这个系统的算法进行分析 设计feedforward ANN(前馈神经网络,也称bp神经网络)时,我们需要考虑以下因素: 1.激活函数的选用 激活函数是结点输出的决策者.我们这个系统将为每个数字输出一个介于0到1的值,值越接近1意味着ann预测的是绘制的数字,越接近0意味着它被预测不是绘制的数字.因此我们将输出接近0或者1的激活函数.我们还需要一个可微分

python之转移字符(学习笔记三)

python之转移字符(学习笔记三) 转义字符 \ 可以转义很多字符,比如 \n 表示换行, \t 表示制表符,字符 \ 本身也要转义,所以 \\ 表示的字符就是 \ ,可以在Python的交互式命令行用print打印字符串看看: 命令: >>>print 'he\'s a boy.' >>>print 'I\'m learning\nlinux.' >>>print '\\\n\\' 截图: 如果字符串里面有很多字符都需要转义,就需要加很多 \ ,为

基于Tesseract OCR的文字识别Android应用开发资料整理

前言 一.Tesseract OCR引擎 Tesseract OCR是HP公司于1985~1995年间开发的商业级OCR(Optical Character Reader, 光学字符阅读器)引擎,并于2005年开放源代码.以下是它sourceforge上的网址: http://sourceforge.net/projects/tesseract-ocr/?source=directory 现在已转移到谷歌的代码服务下: https://code.google.com/p/tesseract-oc

python之图片文字识别

总体思路: 1.借用热键截图,保存到本地 2.用百度的图片文字识别api,识别图中文字 import time import keyboard # 监控键盘事件pip install keyboard from PIL import ImageGrab # 能够去从剪切板当中把图片读取出来pip install pillow from aip import AipOcr #百度文字识别库 pip install baidu-aip # 上面的都是扩展包, 得安装 pip install pill

Python配置图片文字识别

以管理员权限打开cmd控制台. 1.如何安装PIL 输入下面命令:pip install Pillow. 参考:https://www.cnblogs.com/mrgavin/p/8177841.html 2.安装pytesseract 输入下面命令:pip install pytesseract. 详细见下图: 3.安装文字识别包tesseract-ocr(https://www.cnblogs.com/hupeng1234/p/7136442.html) tesseract识别算法开源代码见

python:网络爬虫的学习笔记

如果要爬取的内容嵌在网页源代码中的话,直接下载网页源代码再利用正则表达式来寻找就ok了.下面是个简单的例子: 1 import urllib.request 2 3 html = urllib.request.urlopen('http://www.massey.ac.nz/massey/learning/programme-course/programme.cfm?prog_id=93536') 4 html = html.read().decode('utf-8') 注意,decode方法有

python cookbook第三版学习笔记十三:类和对象(三)描述器

__get__以及__set__:假设T是一个类,t是他的实例,d是它的一个描述器属性.读取属性的时候T.d返回的是d.__get__(None,T),t.d返回的是d.__get__(t,T).说法比较绕,我们来看一个实例: class Descriptor(object):     def __get__(self, instance, owner):         return 'get',self,instance,owner class T(object):     d=Descri

Python之路第二天-----学习笔记

变量名要点: 1.变量名只能包含字母. 数字和下划线. 变量名可以字母或下划线打头, 但不能以数字打头, 例如, 可将变量命名为message_1, 但不能将其命名为1_message. 2.变量名不能包含空格, 但可使用下划线来分隔其中的单词. 3.不要将Python关键字和函数名用作变量名, 即不要使用Python保留用于特殊用途的单词, 如print  . 4.变量名应既简短又具有描述性. 例如, name比n好, student_name比s_n好, name_length比length

&amp;lt;&amp;lt;Python基础教程&amp;gt;&amp;gt;学习笔记 | 第12章 | 图形用户界面

Python支持的工具包非常多.但没有一个被觉得标准的工具包.用户选择的自由度大些.本章主要介绍最成熟的跨平台工具包wxPython.官方文档: http://wxpython.org/ ------ 丰富的平台: Tkinter实际上类似于标准,由于它被用于大多数正式的Python GUI程序.并且它是Windows二进制公布版的一部分. 可是在UNIX上要自己编译安装. 还有一个越来越受欢迎的工具是wxPython. 这是个成熟并且特性丰富的包,也是Python之父,Guido van Ro