机器学习之KNN算法

1 KNN算法

1.1 KNN算法简介

  KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k近邻算法中k的出处,通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。

  说明:KNN没有显示的训练过程,它是“懒惰学习”的代表,它在训练阶段只是把数据保存下来,训练时间开销为0,等收到测试样本后进行处理。

  举例:以电影分类作为例子,电影题材可分为爱情片,动作片等,那么爱情片有哪些特征?动作片有哪些特征呢?也就是说给定一部电影,怎么进行分类?这里假定将电影分为爱情片和动作片两类,如果一部电影中接吻镜头很多,打斗镜头较少,显然是属于爱情片,反之为动作片。有人曾根据电影中打斗动作和接吻动作数量进行评估,数据如下:


电影名称


打斗镜头


接吻镜头


电影类别


Califoria Man


3


104


爱情片


Beautigul Woman


1


81


爱情片


Kevin Longblade


101


10


动作片


Amped II


98


2


动作片

  给定一部电影数据(18,90)打斗镜头18个,接吻镜头90个,如何知道它是什么类型的呢?KNN是这样做的,首先计算未知电影与样本集中其他电影的距离(这里使用曼哈顿距离),数据如下:


电影名称


与未知分类电影的距离


Califoria Man


20.5


Beautigul Woman


19.2


Kevin Longblade


115.3


Amped II


118.9

  现在我们按照距离的递增顺序排序,可以找到k个距离最近的电影,加入k=3,那么来看排序的前3个电影的类别,爱情片,爱情片,动作片,下面来进行投票,这部未知的电影爱情片2票,动作片1票,那么我们就认为这部电影属于爱情片。

 

1.2 KNN算法优缺点

  优点:精度高,对异常值不敏感、无数据输入假定

  缺点:计算复杂度高、空间复杂度高

1.3 KNN算法python代码实现

  实现步骤:

    (1)计算距离

    (2)选择距离最小的k个点

    (3)排序

  Python 3代码:

 1 import numpy as np
 2 import operator
 3
 4 def classify(intX,dataSet,labels,k):
 5     ‘‘‘
 6     KNN算法
 7     ‘‘‘
 8     #numpy中shape[0]返回数组的行数,shape[1]返回列数
 9     dataSetSize = dataSet.shape[0]
10     #将intX在横向重复dataSetSize次,纵向重复1次
11     #例如intX=([1,2])--->([[1,2],[1,2],[1,2],[1,2]])便于后面计算
12     diffMat = np.tile(intX,(dataSetSize,1))-dataSet
13     #二维特征相减后乘方
14     sqdifMax = diffMat**2
15     #计算距离
16     seqDistances = sqdifMax.sum(axis=1)
17     distances = seqDistances**0.5
18     print ("distances:",distances)
19     #返回distance中元素从小到大排序后的索引
20     sortDistance = distances.argsort()
21     print ("sortDistance:",sortDistance)
22     classCount = {}
23     for i in range(k):
24         #取出前k个元素的类别
25         voteLabel = labels[sortDistance[i]]
26         print ("第%d个voteLabel=%s",i,voteLabel)
27         classCount[voteLabel] = classCount.get(voteLabel,0)+1
28     #dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
29     #计算类别次数
30
31     #key=operator.itemgetter(1)根据字典的值进行排序
32     #key=operator.itemgetter(0)根据字典的键进行排序
33     #reverse降序排序字典
34     sortedClassCount = sorted(classCount.items(),key = operator.itemgetter(1),reverse = True)
35     #结果sortedClassCount = [(‘动作片‘, 2), (‘爱情片‘, 1)]
36     print ("sortedClassCount:",sortedClassCount)
37     return sortedClassCount[0][0]

2 KNN算法实例

2.1 KNN实现电影分类

  

 1 import numpy as np
 2 import operator
 3
 4 def createDataset():
 5     #四组二维特征
 6     group = np.array([[5,115],[7,106],[56,11],[66,9]])
 7     #四组对应标签
 8     labels = (‘动作片‘,‘动作片‘,‘爱情片‘,‘爱情片‘)
 9     return group,labels
10
11 def classify(intX,dataSet,labels,k):
12     ‘‘‘
13     KNN算法
14     ‘‘‘
15     #numpy中shape[0]返回数组的行数,shape[1]返回列数
16     dataSetSize = dataSet.shape[0]
17     #将intX在横向重复dataSetSize次,纵向重复1次
18     #例如intX=([1,2])--->([[1,2],[1,2],[1,2],[1,2]])便于后面计算
19     diffMat = np.tile(intX,(dataSetSize,1))-dataSet
20     #二维特征相减后乘方
21     sqdifMax = diffMat**2
22     #计算距离
23     seqDistances = sqdifMax.sum(axis=1)
24     distances = seqDistances**0.5
25     print ("distances:",distances)
26     #返回distance中元素从小到大排序后的索引
27     sortDistance = distances.argsort()
28     print ("sortDistance:",sortDistance)
29     classCount = {}
30     for i in range(k):
31         #取出前k个元素的类别
32         voteLabel = labels[sortDistance[i]]
33         print ("第%d个voteLabel=%s",i,voteLabel)
34         classCount[voteLabel] = classCount.get(voteLabel,0)+1
35     #dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
36     #计算类别次数
37
38     #key=operator.itemgetter(1)根据字典的值进行排序
39     #key=operator.itemgetter(0)根据字典的键进行排序
40     #reverse降序排序字典
41     sortedClassCount = sorted(classCount.items(),key = operator.itemgetter(1),reverse = True)
42     #结果sortedClassCount = [(‘动作片‘, 2), (‘爱情片‘, 1)]
43     print ("sortedClassCount:",sortedClassCount)
44     return sortedClassCount[0][0]
45
46
47
48 if __name__ == ‘__main__‘:
49     group,labels = createDataset()
50     test = [20,101]
51     test_class = classify(test,group,labels,3)
52     print (test_class)

2.2 改进约会网站匹配

  这个例子简单说就是通过KNN找到你喜欢的人,首先数据样本包含三个特征,(a)每年获得的飞行常客里程数(b)玩游戏消耗的时间(c)每周消耗的冰激淋公升数,样本数据放在txt中,如下,前三列为三个特征值,最后一列为标签

下面

首先读取数据,获取数据集和标签

 1 def file2matrix(filename):
 2     fr = open(filename)
 3     arraylines = fr.readlines()
 4     #获取行数
 5     numberoflines = len(arraylines)
 6     #返回numpy的数据矩阵,目前矩阵数据为0
 7     returnMat = np.zeros([numberoflines,3])
 8     #返回的分类标签
 9     classLabelVector = []
10     #行的索引
11     index = 0
12     for line in arraylines:
13         #str.strip(rm) 删除str头和尾指定的字符 rm为空时,默认删除空白符(包括‘\n‘,‘\r‘,‘\t‘,‘ ‘)
14         line = line.strip()
15         #每行数据是\t划分的,将每行数据按照\t进行切片划分
16         listFromLine = line.split(‘\t‘)
17         #取出前三列数据存放到returnMat
18         returnMat[index,:] = listFromLine[0:3]
19         #根据文本中标记的喜欢程度进行分类
20         if listFromLine[-1] == "didntLike":
21             classLabelVector.append(1)
22         elif listFromLine[-1] == "smallDoses":
23             classLabelVector.append(2)
24         else:
25             classLabelVector.append(3)
26         index += 1
27     return returnMat,classLabelVector

数据和标签我们可以打印一下:

下面

下面用Matplotlib作图看一下数据信息:

 1 from matplotlib.font_manager import FontProperties
 2 import numpy as np
 3 import matplotlib.pyplot as plt
 4 from prepareData_1 import file2matrix
 5 import matplotlib.lines as mlines
 6 # from matplotlib.font_manage import FontProperties
 7 ‘‘‘
 8 函数说明:数据可视化
 9 Parameters:
10     datingDataMat - 特征矩阵
11     datingLabels - 分类标签向量
12 Returns:
13     无
14 ‘‘‘
15 def showDatas(datingDataMat,datingLabels):
16     #设置汉子格式
17     font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
18     #函数返回一个figure图像和一个子图ax的array列表。
19     fig,axs = plt.subplots(nrows=2,ncols=2,sharex=False,sharey=False,figsize=(13,8))
20
21     numberofLabels = len(datingLabels)
22     LabelColors = []
23     for i in datingLabels:
24         if i==1:
25             LabelColors.append(‘black‘)
26         if i ==2:
27             LabelColors.append(‘orange‘)
28         if i==3:
29             LabelColors.append("red")
30     #画散点图,以数据矩阵的第一列(飞行常客历程)、第二列(玩游戏)数据话散点图
31     #散点大小为15 透明度为0.5
32     axs[0][0].scatter(x=datingDataMat[:,0],y=datingDataMat[:,1],color=LabelColors,
33         s=15,alpha=0.5)
34     axs0_title_text=axs[0][0].set_title(u"每年获得的飞行里程数与玩视频游戏消耗时间占比",
35         FontProperties=font)
36     axs0_xlabel_text=axs[0][0].set_xlabel("每年获得的飞行常客里程数",FontProperties=font)
37     axs0_ylabel_text=axs[0][0].set_ylabel("玩游戏消耗的时间",FontProperties=font)
38     plt.setp(axs0_title_text,size=9,weight=‘bold‘,color=‘red‘)
39     #画散点图,以数据矩阵的第一列(飞行常客历程)、第三列(冰激淋公斤数)数据话散点图
40     #散点大小为15 透明度为0.5
41     axs[0][1].scatter(x=datingDataMat[:,0],y=datingDataMat[:,2],color=LabelColors,
42         s=15,alpha=0.5)
43     axs0_title_text=axs[0][0].set_title("每年获得的飞行里程数与冰激淋公斤数占比",
44         FontProperties=font)
45     axs0_xlabel_text=axs[0][0].set_xlabel("每年获得的飞行常客里程数",FontProperties=font)
46     axs0_ylabel_text=axs[0][0].set_ylabel("所吃冰激淋公斤数",FontProperties=font)
47     plt.setp(axs0_title_text,size=9,weight=‘bold‘,color=‘red‘)
48     #画散点图,以数据矩阵的第二列(玩游戏)、第三列(冰激淋公斤数)数据话散点图
49     #散点大小为15 透明度为0.5
50     axs[1][0].scatter(x=datingDataMat[:,1],y=datingDataMat[:,2],color=LabelColors,
51         s=15,alpha=0.5)
52     axs0_title_text=axs[0][0].set_title("玩游戏时间与冰激淋公斤数占比",
53         FontProperties=font)
54     axs0_xlabel_text=axs[0][0].set_xlabel("每年获得的飞行常客里程数",FontProperties=font)
55     axs0_ylabel_text=axs[0][0].set_ylabel("所吃冰激淋公斤数",FontProperties=font)
56     plt.setp(axs0_title_text,size=9,weight=‘bold‘,color=‘red‘)
57
58     #设置图例
59     didntLike = mlines.Line2D([],[],color=‘black‘,marker=‘.‘,markersize=6,label=‘didntlike‘)
60     smallDose = mlines.Line2D([],[],color=‘orange‘,marker=‘.‘,markersize=6,label=‘smallDose‘)
61     largeDose = mlines.Line2D([],[],color=‘red‘,marker=‘.‘,markersize=6,label=‘largeDose‘)
62
63     #添加图例
64     axs[0][0].legend(handles=[didntLike,smallDose,largeDose])
65     axs[0][1].legend(handles=[didntLike,smallDose,largeDose])
66     axs[1][0].legend(handles=[didntLike,smallDose,largeDose])
67
68     plt.show()
69
70 if __name__ == ‘__main__‘:
71     filename = "datingTestSet.txt"
72     returnMat,classLabelVector = file2matrix(filename)
73     showDatas(returnMat,classLabelVector)
74
75             

这里我把py文件分开写了,还要注意txt数据的路径,高大上的图:

样本数据中的到底喜欢什么样子的人?自己去分析一下吧。下面要对数据进行归一化,归一化的原因就不多说了,

 1 from prepareData_1 import file2matrix
 2 import numpy as np
 3 ‘‘‘
 4 函数说明:数据归一化
 5 Parameters:
 6     dataSet - 特征矩阵
 7 Returns:
 8     normDataSet - 归一化后的特征矩阵
 9     ranges - 数据范围
10     minVals - 数据最小值
11 ‘‘‘
12
13 def autoNorm(dataSet):
14     #获得数据的最大最小值
15     print (dataSet)
16     print ("**********************")
17     minVals = dataSet.min(0)
18     maxVals = dataSet.max(0)
19     print ("minValues:",minVals)
20     print ("maxValuse:",maxVals)
21     #计算最大最小值的差
22     ranges = maxVals - minVals
23     print ()
24     #shape(dataSet)返回dataSet的矩阵行列数
25     normDataSet=np.zeros(np.shape(dataSet))
26     #返回dataSet的行数
27     m = dataSet.shape[0]
28     #原始值减去最小值
29     normDataSet=dataSet-np.tile(minVals,(m,1))
30     #除以最大值和最小值的差,得到的归一化的数据
31     normDataSet = normDataSet/np.tile(ranges,(m,1))
32     return normDataSet,ranges,minVals

归一化后的数据如下:

有了以上步骤,下面就可以构建完整的约会分类,去找你喜欢的人了:

 1 from prepareData_1 import file2matrix
 2 from dataNormal_3 import autoNorm
 3 import operator
 4 import numpy as np
 5 ‘‘‘
 6 函数说明:knn算法,分类器
 7 Parameters:
 8     inX - 用于分类的数据(测试集)
 9     dataset - 用于训练的数据(训练集)
10     labes - 分类标签
11     k - knn算法参数,选择距离最小的k个点
12 Returns:
13     sortedClassCount[0][0] - 分类结果
14 ‘‘‘
15 def classify0(inX,dataset,labes,k):
16     dataSetSize = dataset.shape[0]  #返回行数
17     diffMat = np.tile(inX,(dataSetSize,1))-dataset
18     sqDiffMat = diffMat**2
19     sqDistances = sqDiffMat.sum(axis=1)
20     distances = sqDistances**0.5
21     sortedDistIndices  =distances.argsort()
22     classCount = {}
23     for i in range(k):
24         voteLabel = labes[sortedDistIndices[i]]
25         classCount[voteLabel] = classCount.get(voteLabel,0)+1
26     sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
27     return sortedClassCount[0][0]
28 def datingClassTest():
29     #filename="test.txt"
30     filename = "datingTestSet.txt"
31     datingDataMat,datingLabels = file2matrix(filename)
32     #取所有数据的10%
33     hoRatio = 0.1
34     #数据归一化,返回归一化后的矩阵,数据范围,数据最小值
35     normMat,ranges,minVals = autoNorm(datingDataMat)
36     #获得nornMat的行数
37     m = normMat.shape[0]
38     #百分之十的测试数据的个数
39     numTestVecs = int(m*hoRatio)
40     #分类错误计数
41     errorCount = 0.0
42
43     for i in range(numTestVecs):
44         #前numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
45         classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],
46             datingLabels[numTestVecs:m],10)
47         print ("分类结果:%d \t真实类别:%d"%(classifierResult,datingLabels[i]))
48         if classifierResult != datingLabels[i]:
49             errorCount += 1.0
50     print ("错误率:%f"%(errorCount/float(numTestVecs)*100))
51
52 if __name__ == ‘__main__‘:
53     datingClassTest()

都是上面的步骤,这里就不解释了,结果如下所示:

2.3 手写数字识别

  数据可以样例可以打开文本文件进行查看,其中txt文件名的第一个数字为本txt中的数字,目录trainingDigits中包含了大约2000个例子,每个数字大约有200个样本,testDigits中包含900个测试数据,我们使用trainingDigits中的数据训练分类器,testDigits中的数据作为测试,两组数据没有重合。

数据在这里:https://github.com/Jenny0611/Ml_Learning01

首先我们要将图像数据处理为一个向量,将32*32的二进制图像信息转化为1*1024的向量,再使用前面的分类器,代码如下:

 1 import numpy as np
 2 import operator
 3 from os import listdir
 4 from sklearn.neighbors import KNeighborsClassifier as kNN
 5
 6 ‘‘‘
 7 函数说明:将32*32的二进制图片转换为1*1024向量
 8 Parameters:
 9     filename - 文件名
10 Returns:
11     returnVect - 返回的二进制图像的1*1024向量
12 ‘‘‘
13 def img2vector(filename):
14     #创建1*1024的0向量
15     returnVect = np.zeros((1,1024))
16     fr = open(filename)
17     #按行读取
18     for i in range(32):
19         #读一行数据
20         lineStr=fr.readline()
21         #每一行的前32个数据依次添加到returnVect
22         for j in range(32):
23             returnVect[0,32*i+j]=int(lineStr[j])
24     return returnVect
25
26 ‘‘‘
27 函数说明:手写数字分类测试
28 Parameters:
29     filename - 无
30 Returns:
31     returnVect - 无
32 ‘‘‘
33 def handwritingClassTest():
34     #测试集的labels
35     hwLabels=[]
36     #返回trainingDigits目录下的文件名
37     trainingFileList=listdir(‘trainingDigits‘)
38     #返回文件夹下文件的个数
39     m=len(trainingFileList)
40     #初始化训练的Mat矩阵的测试集
41     trainingMat=np.zeros((m,1024))
42     #从文件名中解析出训练集的类别
43     for i in range(m):
44         fileNameStr=trainingFileList[i]
45         classNumber = int(fileNameStr.split(‘_‘)[0])
46         #将获取的类别添加到hwLabels中
47         hwLabels.append(classNumber)
48         #将每一个文件的1*1024数据存储到trainingMat矩阵中
49         trainingMat[i,:]=img2vector(‘trainingDigits/%s‘%(fileNameStr))
50     #构建KNN分类器
51     neigh = kNN(n_neighbors=3,algorithm=‘auto‘)
52     #拟合模型,trainingMat为测试矩阵,hwLabels为对应的标签
53     neigh.fit(trainingMat,hwLabels)
54     #返回testDigits目录下的文件列表
55     testFileList=listdir(‘testDigits‘)
56     errorCount=0.0
57     mTest=len(testFileList)
58     #从文件中解析出测试集的类别并进行分类测试
59     for i in range(mTest):
60         fileNameStr=testFileList[i]
61         classNumber=int(fileNameStr.split(‘_‘)[0])
62         #获得测试集的1*1024向量用于训练
63         vectorUnderTest=img2vector(‘testDigits/%s‘%(fileNameStr))
64         #获得预测结果
65         classifierResult=neigh.predict(vectorUnderTest)
66         print ("分类返回结果%d\t真实结果%d"%(classifierResult,classNumber))
67         if (classNumber != classifierResult):
68             errorCount += 1.0
69     print ("总共错了%d个\t错误率为%f%%"%(errorCount,errorCount/mTest*100))
70
71 if __name__ == ‘__main__‘:
72     handwritingClassTest()

2.4 小结

  KNN是简单有效的分类数据算法,在使用时必须有训练样本数据,还要计算距离,如果数据量非常大会非常消耗空间和时间。它的另一个缺陷是无法给出任何数据的基础结构信息,因此我们无法平均实例样本和典型实例样本具体特征,而决策树将使用概率测量方法处理分类问题,以后章节会介绍。

本文参考:http://blog.csdn.net/c406495762/article/details/75172850

     《机器学习实战》

时间: 2024-10-27 10:51:32

机器学习之KNN算法的相关文章

菜鸟之路——机器学习之KNN算法个人理解及Python实现

KNN(K Nearest Neighbor) 还是先记几个关键公式 距离:一般用Euclidean distance   E(x,y)√∑(xi-yi)2 .名字这么高大上,就是初中学的两点间的距离嘛. 还有其他距离的衡量公式,余弦值(cos),相关度(correlation) 曼哈顿距离(manhatann distance).我觉得针对于KNN算法还是Euclidean distance最好,最直观. 然后就选择最近的K个点.根据投票原则分类出结果. 首先利用sklearn自带的的iris

机器学习之KNN算法思想及其实现

从一个例子来直观感受KNN思想 如下图 , 绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类.         从这个例子中,我们再来看KNN思想: 1, 计算已知类别数据集合中的点与当前点之间的距离(使用欧式距离公司: d =sqrt(pow(x-x1),2)+pow(y-y1),2) 2, 按照距离递增次序排序(由近到远) 3, 选取与当前点距

《机器学习实战》读书笔记2:K-近邻(kNN)算法

声明:文章是读书笔记,所以必然有大部分内容出自<机器学习实战>.外加个人的理解,另外修改了部分代码,并添加了注释 1.什么是K-近邻算法? 简单地说,k-近邻算法采用测量不同特征值之间距离的方法进行分类.不恰当但是形象地可以表述为近朱者赤,近墨者黑.它有如下特点: 优点:精度高.对异常值不敏感.无数据输入假定 缺点:计算复杂度高.空间复杂度高 适用数据范围:数值型和标称型 2.K-近邻算法的工作原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中

机器学习经典算法详解及Python实现--K近邻(KNN)算法

(一)KNN依然是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归.如果K=1,那么新数据被简单分配给其近邻的类.KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义.对于监督学习,数据都有明确的label(分类针对离散分布,回归针对连续分布),根据机器学习产

机器学习十大算法之KNN(K最近邻,k-NearestNeighbor)算法

机器学习十大算法之KNN算法 前段时间一直在搞tkinter,机器学习荒废了一阵子.如今想重新写一个,发现遇到不少问题,不过最终还是解决了.希望与大家共同进步. 闲话少说,进入正题. KNN算法也称最近邻居算法,是一种分类算法. 算法的基本思想:假设已存在一个数据集,数据集有多个数值属性和一个标签属性,输入一个新数据,求新数据的标签. 步骤如下: 先将新数据拷贝n份,形成一个新的数据集: 逐行计算新数据集与原数据集的距离: 按距离长度排序后,统计前K个数据里,那个标签出现的次数最多,新数据就标记

【机器学习算法实现】kNN算法__手写识别——基于Python和NumPy函数库

[机器学习算法实现]系列文章将记录个人阅读机器学习论文.书籍过程中所碰到的算法,每篇文章描述一个具体的算法.算法的编程实现.算法的具体应用实例.争取每个算法都用多种语言编程实现.所有代码共享至github:https://github.com/wepe/MachineLearning-Demo     欢迎交流指正! (1)kNN算法_手写识别实例--基于Python和NumPy函数库 1.kNN算法简介 kNN算法,即K最近邻(k-NearestNeighbor)分类算法,是最简单的机器学习算

机器学习实战之kNN算法

机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.11.3,64位,这是python的科学计算包,是python的一个矩阵类型,包含数组和矩阵,提供了大量的矩阵处理函数,使运算更加容易,执行更加迅速. (3)matplotlib 1.5.3,64位,在下载该工具时,一定要对应好python的版本,处理器版本,matplotlib可以认为是python

机器学习经典算法具体解释及Python实现--K近邻(KNN)算法

(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离近期的邻居进行分类推断(投票法)或者回归.假设K=1.那么新数据被简单分配给其近邻的类.KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义.对于监督学习.数据都有明白的label(分类针对离散分布,回归针对连续分布),依据机器学习产

机器学习之二:K-近邻(KNN)算法

一.概述 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.KNN算法中,所选择的邻居都是已经正确分类的对象.该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别. KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关.由于KNN方法主要靠周