机器学习实战笔记-K近邻算法3(手写识别系统)

1 准备数据：将图像转换为测试向量

这次数据集还是有两种，训练数据集和测试数据集，分别有2000个，900个。

我们将把一个32*32的二进制图像矩阵转换为1 x 1024的向量，这样前两节使用的分类器就可以处理数字图像信息了。

代码:

def img2vector(filename): 
    returnVect = zeros((1,1024)) 
    file = open(filename) 
    for i in range(32): 
        line = file.readline() 
        for j in range(32): 
            returnVect[0,i*32+j] = line[j] 
    return returnVect

效果截图:

测试算法

代码:

def handWritingTest(): 
    hwLabels = [] 
    trainingFileList = os.listdir(‘trainingDigits‘) 
    trainingFileLength = len(trainingFileList) 
    trainingMat = zeros((trainingFileLength,1024)) 
    for i in range(trainingFileLength): 
        fileNameStr = trainingFileList[i] 
        className = fileNameStr.split(‘_‘)[0] 
        hwLabels.append(int(className)) 
        fileVector = img2vector(‘trainingDigits/‘ + fileNameStr) 
        trainingMat[i,:] = fileVector 
    testFileList = os.listdir(‘testDigits‘) 
    testFileLength = len(testFileList) 
    errorCount = 0.0 
    for i in range(testFileLength): 
        fileNameStr = testFileList[i] 
        className = int(fileNameStr.split(‘_‘)[0]) 
        fileVector = img2vector(‘testDigits/‘ + fileNameStr) 
        testResult = classify0(fileVector,trainingMat,hwLabels,3) 
        print("the classifier came back with: %d, the real answer is: %d" % (testResult,className)) 
        if(testResult != className): 
            errorCount+=1.0 
    errorRate = errorCount/float(testFileLength) 
    print("the errorRate is : %f" % errorRate)

结果截图:

分别将k改为4,5:

可以发现错误率逐渐增高

时间： 2024-12-08 15:31:38

机器学习实战笔记-K近邻算法3(手写识别系统)的相关文章

机器学习实战笔记——基于KNN算法的手写识别系统

本文主要利用k-近邻分类器实现手写识别系统,训练数据集大约2000个样本,每个数字大约有200个样本,每个样本保存在一个txt文件中,手写体图像本身是32X32的二值图像,如下图所示: 首先,我们需要将图像格式化处理为一个向量,把一个32X32的二进制图像矩阵通过img2vector()函数转换为1X1024的向量: def img2vector(filename): returnVect = zeros((1,1024)) fr = open(filename) for i in range(

机器学习实战笔记-K近邻算法1（分类动作片与爱情片）

K近邻算法采用测量不同特征值之间的距离方法进行分类 K近邻算法特点: 优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高. 适用数据范围:数值型和标称型. K近邻算法原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签.一般来说,我们只选择样本数据集中前k个最

机器学习实战笔记-K近邻算法2(改进约会网站的配对效果)

案例二.:使用K-近邻算法改进约会网站的配对效果案例分析: 海伦收集的数据集有三类特征,分别是每年获得的飞行常客里程数.玩视频游戏所耗时间百分比. 每周消费的冰淇淋公升数.我们需要将新数据的每个新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签.一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数.最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类. 流程:在约会网站上使用K

机器学习实战笔记--k近邻算法

1 #encoding:utf-8 2 from numpy import * 3 import operator 4 import matplotlib 5 import matplotlib.pyplot as plt 6 7 from os import listdir 8 9 def makePhoto(returnMat,classLabelVector): #创建散点图 10 fig = plt.figure() 11 ax = fig.add_subplot(111) #例如参数为

《机器学习实战》-k近邻算法

目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python 解析文本文件分析数据:使用 Matplotlib 画二维散点图准备数据:归一化数值测试算法:验证分类器使用算法:构建完整可用系统手写识别系统准备数据测试算法使用算法:构建完整可用系统总结 K-近邻算法 k-近邻分类算法概述使用 k-近邻算法改进约会网站的配对效果手写识别系统

Python 基于KNN算法的手写识别系统

本文主要利用k-近邻分类器实现手写识别系统,训练数据集大约2000个样本,每个数字大约有200个样本,每个样本保存在一个txt文件中,手写体图像本身是32X32的二值图像,如下图所示: 手写数字识别系统的测试代码: from numpy import * import operator from os import listdir #inX 要检测的数据 #dataSet 数据集 #labels 结果集 #k 要对比的长度 def classify0(inX, data

基于K-近邻分类算法的手写识别系统

前言本文将继续讲解K-近邻算法的项目实例 - 手写识别系统. 该系统在获取用户的手写输入后,判断用户写的是什么. 为了突出核心,简化细节,本示例系统中的输入为32x32矩阵,分类结果也均为数字.但对于汉字或者别的分类情形原理都是一样的. 有了前面学习的基础,下面直接进入项目开发步骤. 第一步:收集并准备数据在用户主目录的trainingDigits子目录中,存放的是2000个样本数据. 每个样本一个文件,其中一部分如下所示: 文件命名格式为: 分类标签_标签内序号如 0_20.txt 就表

K-近邻算法构造手写识别系统

为了简单起见,这里构造的系统只能识别数字0到9,需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小:宽高是32像素的黑白图像.尽管采用文本格式存储图像不能有效地利用内存空间,但是为了方便理解,我们还是将图像转换为文本格式. ---1.收集数据:提供文本文件该数据集合修改自“手写数字数据集的光学识别”-一文中的数据集合,该文登载于2010年10月3日的UCI机器学习资料库中http://archive.ics.uci.edu/ml. ---2.准备数据:将图像转换为测试

《机器学习实战》——K近邻算法

原理: (1) 输入点A,输入已知分类的数据集data (2) 求A与数据集中每个点的距离,归一化,并排序,选择距离最近的前K个点 (3) K个点进行投票,票数最多的分类即为所求优点: 简单,可用于非线性分类缺点: 当样本不均衡时影响投票结果: 分类结果受K值影响: 时空复杂度高:需要保存全部数据O(N),每次取前k个都要与全部数据进行计算O(N),耗费内存大且计算量大改进: 样本均衡化太小的K值容易受噪音影响,大的K值减小噪音但会使分类边界模糊,最合适的方法是用交叉验证确定K值:先确定