《机器学习实战》--KNN

代码来自《机器学习实战》https://github.com/wzy6642/Machine-Learning-in-Action-Python3

K-近邻算法(KNN)

介绍

简单地说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。

优点：精度高、对异常值不敏感，无数据输入假定。

缺点：计算复杂度高、空间复杂度高，无法给出数据的内在含义。

使用数据范围：数值型、标称型。

分类函数的伪代码：

　　对未知类别属性的数据集中的每个点依次执行以下操作：

　　（1）计算已知类别数据集中的点与当前点之间的距离；

　　（2）按照距离递增次序排序；

　　（3）选取与当前点距离最小的k个点；

　　（4）确定前k个点所在类别的出现概率；

　　（5）返回前k个点出现频率最高的类别作为当前点的预测分类。

 1 """创建数据集
 2 返回: group - 数据集
 3      labels - 分类标签
 4 """
 5 def createDataSet():
 6     # 四组二维特征
 7     group = np.array([[1, 101], [5, 89], [108, 5], [115, 8]])
 8     # 四组特征的标签
 9     labels = [‘爱情片‘, ‘爱情片‘, ‘动作片‘, ‘动作片‘]
10     return group, labels
11
12
13 """
14 KNN算法，分类器
15 参数：
16     inX - 用于分类的数据（测试集）
17     dataSet - 用于训练的数据（训练集）（n*1维列向量)
18     labels - 分类标准（n*1维列向量)
19     k - KNN算法参数，选择距离最小的k个点
20 返回：
21     sortedClasscount[0][0] - 分类结果
22 """
23 def classify0(inX, dataSet, labels, k):
24     # numpy函数shape[0]返回dataSet的行数（维度）
25     dataSetSize = dataSet.shape[0]
26     # 将inX重复dataSetSize次并排成一列
27     diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
28     # 二维特征相减后平方
29     sqDiffMat = diffMat**2
30     # sum()所有元素相加，sum(0)列相加，sum(1)行相加
31     sqDistances = sqDiffMat.sum(axis=1)
32     # 开方，计算出距离
33     distances = sqDistances**0.5
34     # argsort函数返回的是distances值从小到大的索引值
35     sortedDistIndicies = distances.argsort()
36     # 定义一个记录类别次数的词典
37     classCount = {}
38     # 选择距离最小的k个点
39     for i in range(k):
40         # 取出前k个元素的类别
41         voteIlabel = labels[sortedDistIndicies[i]]
42         # 字典的get()方法，返回指定键的值，如果值不在字典中返回0
43         # 计算类别次数
44         classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
45     # reverse降序排序字典，operator.itemgetter(1)按值排序，(0)按键排序
46     sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
47     # 返回次数最多的类别，即所要分类的类别
48     return sortedClassCount[0][0]
49
50 # 测试
51 group, labels = createDataSet()
52 classify0([0,0], group, labels, 3)  # output: ‘爱情片‘

实战：手写数字识别系统

这里只能识别数字0到9，图像为32*32像素的黑白图像，将图像转换为文本格式。

将图像格式化处理为一个向量，把32*32的二进制图像矩阵为1*2014的向量。

 1 """
 2 将32*32的二进制图像转换为1*1024向量
 3 参数：
 4     filename - 文件名
 5 返回：
 6     returnVect - 返回二进制图像的1*1024向量
 7 """
 8
 9 def img2vector(filename):
10     returnVect = np.zeros((1, 1024))
11     fr = open(filename)
12     # 按行读取
13     for i in range(32):
14         # 读取一行数据
15         lineStr = fr.readline()
16         # 每一行的前32个数据依次存储到returnVect中
17         for j in range(32):
18             returnVect[0, 32*i+j] = int(lineStr[j])
19     # 返回转换后的1*1024向量
20     return returnVect
21
22 # 测试
23 testVector = img2vector(‘testDigits/0_13.txt‘)
24 testVector[0, 0:31]
25 # output: array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1.,
26 #        1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

测试算法

 1 """
 2 手写数字分类测试
 3 参数：
 4     None
 5 返回:
 6     None
 7 """
 8 def handwritingClassTest():
 9     # 测试集的labels
10     hwLabels = []
11     # 返回trainingDigits目录下的文件名
12     trainingFilesList = listdir(‘trainingDigits‘)
13     # 返回文件夹下文件的个数
14     m = len(trainingFilesList)
15     # 初始化训练的Mat矩阵（全零针），测试集
16     trainingMat = np.zeros((m, 1024))
17     # 从文件名中解析出训练集的类别
18     for i in range(m):
19         # 获得文件的名字
20         fileNameStr = trainingFilesList[i]
21         # 获得分类的数字
22         classNumber = int(fileNameStr.split(‘_‘)[0])
23         # 将获得的类别添加到hwLabels中
24         hwLabels.append(classNumber)
25         # 将每个文件的1*1024数据存储到trainingMat矩阵中
26         trainingMat[i, :] = img2vector(‘trainingDigits/%s‘ % (fileNameStr))
27     # 构造KNN分类器
28     neigh = KNN(n_neighbors=3, algorithm=‘auto‘)
29     # 拟合模型，trainingMat为测试矩阵，hwLabels为对应标签
30     neigh.fit(trainingMat, hwLabels)
31     # 返回testDigits目录下的文件列表
32     testFileList = listdir(‘testDigits‘)
33     # 错误检测计数
34     errorCount =0.0
35     # 测试数据的数量
36     mTest = len(testFileList)
37     # 从文件中解析出测试集的类别并进行分类测试
38     for i in range(mTest):
39         # 获得文件名字
40         fileNameStr = testFileList[i]
41         # 获得分类的数字
42         classNumber = int(fileNameStr.split(‘_‘)[0])
43         # 获得测试集的1*1024向量，用于训练
44         vectorUnderTest = img2vector(‘testDigits/%s‘ % (fileNameStr))
45         # 获得预测结果
46         classifierResult = neigh.predict(vectorUnderTest)
47         print("分类返回结果为%d\t真实结果为%d" % (classifierResult, classNumber))
48         if(classifierResult != classNumber):
49             errorCount += 1.0
50     print("总共错了%d个数据\n错误率为%f%%" % (errorCount, errorCount/mTest * 100))

原文地址：https://www.cnblogs.com/harbin-ho/p/12026276.html

时间： 2024-11-05 22:42:30

《机器学习实战》--KNN的相关文章

机器学习实战——kNN分类器

惰性学习法:简单的存储数据,一直等待,直到给定一个测试元组时才进行泛化,根据对存储的元组的相似性进行分类.kNN(k近邻)分类方法于20世纪50年代提出,由于计算密集型算法,因此到60年代之后随着计算能力增强后才逐步应用. kNN基于类比学习,将给定的测试元组表示为n维空间中的一个点,n代表属性数目.然后使用某种距离度量方式来寻找与给定测试元组最近的k个训练元组,对这个k个训练元组的类别进行统计,返回类别数目多的类别作为未知测试元组的类别. 常用的距离度量就是欧几里得距离,也称为二范数.同时为了

【读书笔记】机器学习实战-kNN(1)

k临近算法(kNN)采用测量不同特征值之间的距离方法进行分类,也是一种非常直观的方法.本文主要记录了使用kNN算法改进约会网站的例子. 任务一:分类算法classify0 就是使用距离公式计算特征值之间的距离,选择最邻近的k个点,通过统计这k个点的结果来得出样本的预测值. tile函数用法在这里 argsort函数在这里 def classify0(inX,dataset,labels,k): #shape 返回行列数,shape[0]是行数,有多少元组 datasetsize = datase

机器学习实战knn

最近在学习这本书,按照书上的实例编写了knn.py的文件,使用canopy进行编辑,用shell交互时发现运行时报错: >>> kNN.classify0([0,0],group,labels,3) Traceback (most recent call last): File "<stdin>", line 1, in <module> NameError: name 'kNN' is not defined 运行的代码如下: from nu

机器学习实战- KNN

KNN:k近邻算法-在训练样本中找到与待测样本距离相近的N个样本,并用这N个样本中所属概率最大的类别作为待测样本的类别. 算法步骤: 1.对训练中的样本数据的不同属性进行归一化处理. 2.计算待测样本到训练样本集中的距离.(欧拉距离或曼哈顿距离): 3.找到N个距离最小的样本属于不同类别的概率. 4.取最大的概率作为待测样本的类别. 例子1: 相亲相亲考虑的条件: 1) 每年飞行公里 2) 每周打的游戏时长 3)每周消耗的ice cream 态度用1,2,3表示:1表示little like

机器学习实战之kNN

笔者最近开始对机器学习非常感兴趣,作为一个有志向的软设方向的女孩纸,我开始了学习的第一步入门,下面将今天刚刚学习的kNN及其应用进行总结和回顾,希望可以得到更好的提升,当然,有志同道合者,你可以联系我给我留言,毕竟菜鸟一起飞才能飞的更高更远.?? 首先,kNN算法也叫k-近邻算法,它的工作原理是:存在一个样本的数据集合,也称作训练样本集,并且每个样本集都有其标签.故而,我们很清楚每一数据和其所属分类之间的关系.当输入新样本时,我们将新数据的每一个特征样本集中对应的数据特征进行比较,然后算法提取特

基于kNN的手写字体识别——《机器学习实战》笔记

看完一节<机器学习实战>,算是踏入ML的大门了吧!这里就详细讲一下一个demo:使用kNN算法实现手写字体的简单识别 kNN 先简单介绍一下kNN,就是所谓的K-近邻算法: [作用原理]:存在一个样本数据集合.每个样本数据都存在标签.输入没有标签的新数据后,将新数据的每个特征与样本集数据的对应特征进行比较,然后算法提取样本集中最相似的分类标签.一般说来,我们只选择样本数据集中前k个最相似的数据,最后,选择这k个相似数据中出现次数最多的分类,作为新数据的分类. 通俗的说,举例说明:有一群明确国籍

《机器学习实战》读书笔记2：K-近邻(kNN)算法

声明:文章是读书笔记,所以必然有大部分内容出自<机器学习实战>.外加个人的理解,另外修改了部分代码,并添加了注释 1.什么是K-近邻算法? 简单地说,k-近邻算法采用测量不同特征值之间距离的方法进行分类.不恰当但是形象地可以表述为近朱者赤,近墨者黑.它有如下特点: 优点:精度高.对异常值不敏感.无数据输入假定缺点:计算复杂度高.空间复杂度高适用数据范围:数值型和标称型 2.K-近邻算法的工作原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中

机器学习实战之kNN算法

机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.11.3,64位,这是python的科学计算包,是python的一个矩阵类型,包含数组和矩阵,提供了大量的矩阵处理函数,使运算更加容易,执行更加迅速. (3)matplotlib 1.5.3,64位,在下载该工具时,一定要对应好python的版本,处理器版本,matplotlib可以认为是python

机器学习实战笔记——基于KNN算法的手写识别系统

本文主要利用k-近邻分类器实现手写识别系统,训练数据集大约2000个样本,每个数字大约有200个样本,每个样本保存在一个txt文件中,手写体图像本身是32X32的二值图像,如下图所示: 首先,我们需要将图像格式化处理为一个向量,把一个32X32的二进制图像矩阵通过img2vector()函数转换为1X1024的向量: def img2vector(filename): returnVect = zeros((1,1024)) fr = open(filename) for i in range(