机器学习 | 浅谈K-近邻算法

K-近邻(KNN)算法是解决分类问题的算法。既可以解决二分类，也可以解决多分类问题。

其实它也可以解决回归问题。

K-近邻原理:

　　某个样本的类别，由与之最相近的K个邻居投票所决定。

　　例子:

　　现在有一个样本集，其中所有数据都已经标记好类别，假设有一个未知类别的样本x需要进行分类。

　　在离这个样本距离最近的K个样本中，统计各个类别的占比。假设k=5时，计算出哪5个样本离未知样本x最近，

　　然后统计它们的类别，如在这5个样本中，有2个属于类别A，3个属于类别B。由于类别B的占比比较高，

　　所以得出样本x属于类别B。

　　如图:

　　　红点的类别为class A ，蓝点的类别为class B，黑点表示需要预测类别的样本x。

　　　通过Knn算法，当k=5时:

　　　　离黑点（样本x）最近的5(K所决定)个样本中，有3个蓝点，2个红点。所以可判定黑点和蓝点属同一个类别，为class B

　　　　既然K的取值决定了取K个邻居进行投票。那么当K取其他值，又是什么情况呢？

　　　　（另一种情况）当k=3时:

　　　　此时离黑点最近的3个邻居中，2个红点，1个蓝点，因此红点占比高，所以可以判定黑点和红点一样属于class A类别

　　　　通过对比可知:

　　　　　在K-近邻中，K的取值影响了最终预测的结果。

K-近邻伪代码:

　　　　1.遍历训练集所有样本，计算每个样本与样本x之间的距离，保存所有距离

　　　　2.对这些距离进行排序（升序）,取出k个最近的样本

　　　　3.对k个样本的类别进行统计，找出占比最高的类别

　　　　4.待标记样本的类别就是占比最高的类别

原文地址：https://www.cnblogs.com/qiutenglong/p/10961222.html

时间： 2024-11-01 07:41:55

机器学习 | 浅谈K-近邻算法的相关文章

机器学习实战笔记-K近邻算法1（分类动作片与爱情片）

K近邻算法采用测量不同特征值之间的距离方法进行分类 K近邻算法特点: 优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高. 适用数据范围:数值型和标称型. K近邻算法原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签.一般来说,我们只选择样本数据集中前k个最

机器学习实战笔记-K近邻算法2(改进约会网站的配对效果)

案例二.:使用K-近邻算法改进约会网站的配对效果案例分析: 海伦收集的数据集有三类特征,分别是每年获得的飞行常客里程数.玩视频游戏所耗时间百分比. 每周消费的冰淇淋公升数.我们需要将新数据的每个新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签.一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数.最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类. 流程:在约会网站上使用K

机器学习实战笔记--k近邻算法

1 #encoding:utf-8 2 from numpy import * 3 import operator 4 import matplotlib 5 import matplotlib.pyplot as plt 6 7 from os import listdir 8 9 def makePhoto(returnMat,classLabelVector): #创建散点图 10 fig = plt.figure() 11 ax = fig.add_subplot(111) #例如参数为

机器学习随笔01 - k近邻算法

算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. 度量每个特征的程度,将其数字化. 所有特征值构成元组,作为该对象的坐标. 计算待检测对象和所有已知对象的距离,选择距离最接近的k个已知对象 (k近邻中的k来源于此). 这k个对象中出现次数最多的分类就是待检测对象的分类. 重要前提: 需要有一批已经正确归类了的对象存在.也就是通常说的训练数据. 重

《机器学习实战》-k近邻算法

目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python 解析文本文件分析数据:使用 Matplotlib 画二维散点图准备数据:归一化数值测试算法:验证分类器使用算法:构建完整可用系统手写识别系统准备数据测试算法使用算法:构建完整可用系统总结 K-近邻算法 k-近邻分类算法概述使用 k-近邻算法改进约会网站的配对效果手写识别系统

机器学习实战笔记-K近邻算法3(手写识别系统)

1 准备数据:将图像转换为测试向量这次数据集还是有两种,训练数据集和测试数据集,分别有2000个,900个. 我们将把一个32*32的二进制图像矩阵转换为1 x 1024的向量,这样前两节使用的分类器就可以处理数字图像信息了. 代码: def img2vector(filename): returnVect = zeros((1,1024)) file = open(filename) for i in range(32): line = file.readline() for j in ra

浅谈k短路算法

An Old but Classic Problem 给定一个$n$个点,$m$条边的带正权有向图.给定$s$和$t$,询问$s$到$t$的所有权和为正路径中,第$k$短的长度. Notice 定义两条路径不同,当且仅当它们的边集中存在一条边,使得它只在其中的一条路径上. Solution#1 Shortest Path & A* 对于Dijstra算法,有一个结论就是,当一个点第$k$次出队的时候,此时路径长度就是$s$到它的第$k$短路. 那为什么还要A*呢?我试了试,写了个Dijstra,

《机器学习实战》——K近邻算法

原理: (1) 输入点A,输入已知分类的数据集data (2) 求A与数据集中每个点的距离,归一化,并排序,选择距离最近的前K个点 (3) K个点进行投票,票数最多的分类即为所求优点: 简单,可用于非线性分类缺点: 当样本不均衡时影响投票结果: 分类结果受K值影响: 时空复杂度高:需要保存全部数据O(N),每次取前k个都要与全部数据进行计算O(N),耗费内存大且计算量大改进: 样本均衡化太小的K值容易受噪音影响,大的K值减小噪音但会使分类边界模糊,最合适的方法是用交叉验证确定K值:先确定

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法.距离度量谈到KD树.SIFT+BBF算法从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经网络:3.编程艺术第28章.你看到,blog内的文章与你于别处所见的任何都不同.于是,等啊等,等一台电脑,只好等待..”.得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时候,稍许感受到受人信任也是一种压力,愿我不辜负大家对我的信任)