使用K近邻算法实现手写体识别系统

目录

1. 应用介绍

1.1实验环境介绍

1.2应用背景介绍

2. 数据来源及预处理

2.1数据来源及格式

2.2数据预处理

3. 算法设计与实现

3.1手写体识别系统算法实现过程

3.2 K近邻算法实现

3.3手写体识别系统实现

3.4算法改进与优化

4. 系统运行过程与结果展示

1.应用介绍

1.1实验环境介绍

本次实验主要使用Python语言开发完成，Python的版本为2.7，并且使用numpy函数库做一些数值计算和处理。

1.2应用背景介绍

本次实验实现的是简易的手写体识别系统，即根据用户输入的手写体照片可以识别出手写体数字是多少。本次输入的手写体是用0,1数字拼成的手写体数字。本次完成手写体的识别使用K近邻算法，k近邻算法设计简单，容易实现，且对特定的问题分类的效果也比较好。因此本次实验选择k近邻来对手写体进行分类和识别，也是对手写体图片特征数据的挖掘过程。

2.数据来源及预处理

2.1数据来源及格式

该数据集合修改自“手写数字数据集的光学识别” 一文中的数据集合，该文登载于2010年10月3日的UCI资料库中http://archive.ics.uci.edu/ml。

为了简单起见，这里构造的系统只能识别数字0到9。需要识别的数字已经使用图形处理软件，处理成具有相同的色彩和大小: 宽髙是32像素*32像素的黑白图像。尽管采用文本格式存储图像不能有效地利用内存空间，但是为了方便理解，我们还是将图像转换为文本格式。

图：数据源：手写体数据格式

2.2数据预处理

首先将图像转换为测试向量，本次实验大约使用了2000个例子，每个例子的内容如上图所示，每个数字大约有200个样本；目录testDigits中包含了大约900个测试数据。我们使用目录trainingDigits中的数据训练分类器，使用目录testDigits中的数据测试分类器的效果。两组数据没有覆盖。部分数据如下：

图：数据目录

这里将图像格式化处理为一个向量。把一个32*32的二进制图像矩阵转换为1 x 1024的向量，这样前两节使用的分类器就可以处理数字图像信息了。

首先编写一段函数img2vector将图像转换为向量：该函数创建1*1024的Numpy数组，然后打开给定的文件，循环读出文件的前32行，并将每行的头32个字符值存储在Numpy数组中，最后返回数组。

3. 算法设计与实现

3.1手写体识别系统算法实现过程

(1)收集数据：提供文本文件。

(2)准备数据：编写函数clasify0()，将图像格式转换为分类器使用的list格式。

(3)分析数据：在python命令提示符中检查数据，确保它符合要求。

(4测试算法：编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本的区别在于测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误。

3.2 K近邻算法实现

K近邻算法的实现过程是：

(1)计算已知类别数据集中的点与当前点之间的距离；

(2)按照距离递增次序排序；

(3)选取与当前点距离最小的k个点；

(4)确定前k个点所在类别的出现频率；

(5)返回前k个点出现频率最高的类别作为当前点的预测分类。

本系统在classify0函数中实现了k近邻算法。

classifyO ()函数有4个输人参数:用于分类的输人向量是inX，输人的训练样本集为dataSet

标签向量为labels，最后的参数义表示用于选择最近邻居的数目，其中标签向量的元素数目和矩阵dataSet的行数相同。程序使用欧氏距离公式，计算两个向量点xA和xB之间的距离。

计算完所有点之间的距离后，可以对数据按照从小到大的次序排序。然后，确定前k个距离

最小元素所在的主要分类，输人k总是正整数；最后，将classCount字典分解为元组列表，然后使用程序第二行导入运算符模块的itemgetter方法，按照第二个元素的次序对元组进行排序。此处的排序为逆序，即按照从最大到最小次序排序，最后返回发生频率最高的元素标签。

3.3手写体识别系统实现

系统需要调用img2vector做数据预处理，然后调用classify0做分类，最后将对测试集分类的结果输出，并计算错误率。在实现中需要从os中导入listdir，可以列出给定目录的文件名。

将trainingDigits目录中的文件内容存储在列表中。然后可以得到目录中有多少文件，并将其存储在变量m中。接着，代码创建一个m行1024列的训练矩阵，该矩阵的每行数据存储一个图像。我们可以从文件名中解析出分类数字。该目录下的文件按照规则命名，如文件

9_45.txt的分类是9，它是数字9的第45个实例。

3.4算法改进与优化

改变变量k的值、修改函数handwritingClassTest随机选取训练样本、改变训练样本的数目，都会对k近邻算法的错误率产生影响。

实际使用这个算法时，算法的执行效率并不高。因为算法需要为每个测试向量做2000次距离计算，每个距离计算包括了1024个维度浮点运算，总计要执行900次，此外，我们还需要为测试向量准备2 M B的存储空间。因此可以使用其他的算法做一些改进和优化。

4. 系统运行过程与结果展示

本次实验使用Python自带的ide编辑代码，之后直接调用相应的函数运行即可，程序输入是trainingDigits和testDigits中的手写体数据集。输出是对测试集识别的结果及正确的结果和最终识别的错误率。

（1）设定k值为3，运行过程及结果如下：

最终识别的错误率为1.2%。

（2）改变K值大小，设为6，运行过程及结果如下：

最终的错误率是2.0%，即随着k值的增大错误率在增加。

（3）改变k值大小，设定为2，运行结果如下：

最终的错误率是1.4%，错误率增加了。

因此选择合适的k值可以有效的降低错误，提高识别的正确率。

时间： 2024-10-05 06:16:52

使用K近邻算法实现手写体识别系统的相关文章

k近邻算法--手写识别系统

下面的例子来源为<机器学习实战>,例子只能识别0-9. 首先需要将图像二进制数据转化为测试向量: def imgTransformVector(filename): # 将 32x32 二进制图像矩阵转化为 1x1024 向量 returnVector = np.zeros((1,1024)) fr = open(filename) for i in range(32): lineStr = fr.readline() for j in range(32): returnVector[0,32

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法.距离度量谈到KD树.SIFT+BBF算法从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经网络:3.编程艺术第28章.你看到,blog内的文章与你于别处所见的任何都不同.于是,等啊等,等一台电脑,只好等待..”.得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时候,稍许感受到受人信任也是一种压力,愿我不辜负大家对我的信任)

机器学习随笔01 - k近邻算法

算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. 度量每个特征的程度,将其数字化. 所有特征值构成元组,作为该对象的坐标. 计算待检测对象和所有已知对象的距离,选择距离最接近的k个已知对象 (k近邻中的k来源于此). 这k个对象中出现次数最多的分类就是待检测对象的分类. 重要前提: 需要有一批已经正确归类了的对象存在.也就是通常说的训练数据. 重

K近邻算法

1.1.什么是K近邻算法何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居.为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属

《机器学习实战》-k近邻算法

目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python 解析文本文件分析数据:使用 Matplotlib 画二维散点图准备数据:归一化数值测试算法:验证分类器使用算法:构建完整可用系统手写识别系统准备数据测试算法使用算法:构建完整可用系统总结 K-近邻算法 k-近邻分类算法概述使用 k-近邻算法改进约会网站的配对效果手写识别系统

『cs231n』作业1问题1选讲_通过代码理解K近邻算法&交叉验证选择超参数参数

通过K近邻算法探究numpy向量运算提速茴香豆的"茴"字有... ... 使用三种计算图片距离的方式实现K近邻算法: 1.最为基础的双循环 2.利用numpy的broadca机制实现单循环 3.利用broadcast和矩阵的数学性质实现无循环图片被拉伸为一维数组 X_train:(train_num, 一维数组) X:(test_num, 一维数组) 方法验证 import numpy as np a = np.array([[1,1,1],[2,2,2],[3,3,3]]) b

K 近邻算法

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,因为本人在学习初始时有非常多数学知识都已忘记,所以为了弄懂当中的内容查阅了非常多资料.所以里面应该会有引用其它帖子的小部分内容,假设原作者看到能够私信我,我会将您的帖子的地址付到以下. 3.假设有内容错误或不准确欢迎大家指正. 4.假设能帮到你.那真是太好了. 描写叙述给定一个训练数据集,对新的输入实例.在训练数据集中找到与该实例最邻近的K个实例,若这K个实

K近邻算法-KNN

何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居.为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分

k近邻算法理论（一）

时间 :2014.07.05 地点:基地 ----------------------------------------------------------------------------------- 一.简述 K近邻法(k-nearest neighbor,kNN)是一种基本分类与回归方法.k近邻的输入为实例的特征向量,对应特征空间中的点,输出为实例的类别.k近邻算法的基本思想是:给定训练数据集,实例类别已定,在对目标实例进行分类时,我们根据与目标实例k个最近邻居的训练实例的类别,通过

猜你喜欢

sql server 2008 R2 压缩备份数据库

今天需要把一个省外项目的数据库从服务器上备份.拷贝到本机(跨地域传输数据库备份文件). 连上VPN,通过远程桌面连接,连接上服务器,发现数据库文件已经有20G以上大小了. 文件太大,公司网络也不稳定, ...

LeetCode——N-Queens II

Description: Follow up for N-Queens problem. Now, instead outputting board configurations, return th ...

洛谷【P1351】codevs3728 联合权值

题目描述无向连通图G 有n 个点,n - 1 条边.点从1 到n 依次编号,编号为 i 的点的权值为W i ,每条边的长度均为1 .图上两点( u , v ) 的距离定义为u 点到v 点的最短距离. ...

checkbox二选一的延伸

这几天在某公司进行实习,测试平台环境是发现Bug,所以自己想用自己的方式来解决. 业务要求: 四个勾选框: 1:主办和协办绑定在一起,也就是说选了主办或协办,或是一起勾选了,就不可以同时选择对外和任务 ...

bzoj1433: [ZJOI2009]假期的宿舍

1433: [ZJOI2009]假期的宿舍 Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 2286 Solved: 969[Submit][Stat ...

C#中KeyDown和KeyPress区别

1.比如说TexBox 输入'a' 按下->触发KeyDown事件,然后去处理 ->将a显示输入到文本框后 ->触发KeyPress事件

第12章安装RPM包或者安装源码包

1. 区分 rpm -qi -qf -ql -qa四个不同选项组合的作用?rpm -qi //查询已经安装的某个RPM软件包的信息rpm -qf //查询某个程序文件是由哪个RPM软件包安 ...

深入理解JavaScript系列：JavaScript的构成

此篇文章不是干货类型,也算不上概念阐述,就是简单的进行一个思路上的整理. 要了解一样东西或者完成一件事情,首要的就是先要搞清楚他是什么.作为一个前端开发人员,JavaScript应该算作是最核心之一的 ...

Android进阶学习

一.Android四大组件 1. Activity 生命周期: 2. Service 生命周期: Service的生命周期长,没有用户界面,可以用来开发监控程序. Service有两种调用方式: 通过 ...

bind搭建（二）反向解析

我们在上一节已经知道了怎么建立DNS的服务器端,可以实现了域名到IP之间的转换.那么好我们现在就来了解一下如何实现反向的DNS解析,也就是IP到域名的映射. 步骤如下: l 在/etc/named中 ...

网络中的概念

背板容量:整个交换机最大的吞吐量,将所有接口速率相加交换容量:CPU的交换容量转发能力:三层转发的容量 SFP+光模块是新一代的10G光模块,SFP+比早期的XFP光模块外观尺寸缩小了约30%,和普通 ...

javascript 单例模式

单例模式是设计模式里最基本也是最常用的模式之一,其特点是单体对象只存在一份实例,这样你就能确保在你的所有代码里面都使用着同样的全局资源. 在Java里面实现单例模式的方法是首先将构造函数私有化,在内部 ...

怎么样取消提示: 作者被禁止或删除内容自动屏蔽

今天dizcuz论坛突然出现"提示: 作者被禁止或删除内容自动屏蔽,只有管理员或有管理权限的成员可见" 我的数据库也没备份,吓死我了.不过很快就找到了方法. 怎么样取消提示: 作 ...

zabbix3.0.4监控nginx服务

Zabbix3.0.4添加对Nginx服务的监控一. 通过Nginx的http_stub_status_module模块提供的状态信息来监控,所以在Agent端需要配置Nginx状态获取的脚本,和添 ...

[Python学习]——序列(1)——初识Python中的序列

我们讲的python中的序列包括:1. 字符串(多个字符组成的一个序列)2. 列表3. 元组 #列表和元组的异同? list=[1,2,3] print type(list) tuple=(1,2,3 ...

超云网络西咸新区BGP多线数据中心介绍

超云网络咸阳数据中心位于陕西省咸阳市.咸阳市位于陕西省八百里秦川腹地,渭水穿南,嵕山亘北,山水俱阳,故称咸阳.素有"中国第一帝都"之称,是中部地区中国电信与中国移动的重要网络出口节 ...

Thread的理解

在前面2篇文章分别讲到了线程和进程的由来.以及如何在Java中怎么创建线程和进程.今天我们来学习一下Thread类,在学习Thread类之前,先介绍与线程相关知识:线程的几种状态.上下文切换,然后接着 ...

Play Framework 完整实现一个APP（十三）

添加用户编辑区 1.修改Admin.index() public static void index() { List<Post> posts = Post.find("auth ...

前端开发常用手册、资料

转自:http://segmentfault.com/a/1190000000659414 收集整理的前端开发书籍.文档等相关资料(many books or documents for front- ...

Ext.Net学习笔记10：Ext.Net ComboBox用法

ComboBox是最常用的控件之一,它与HTML中的Select控件很像,但可以进行多选.自定义显示格式.分页等. ComboBox用法 <ext:ComboBox runat="se ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.