K近邻算法小结

什么是K近邻?

K近邻一种非参数学习的算法，可以用在分类问题上，也可以用在回归问题上。

什么是非参数学习？

一般而言，机器学习算法都有相应的参数要学习，比如线性回归模型中的权重参数和偏置参数，SVM的C和gamma参数，而这些参数的学习又依赖一定的学习策略。相比较而言，k近邻算法可以说是最简单，也是最容易理解的一种机器学习算法了。
K近邻算法思想？
具体而言，在一个待测试样本周围找K个最近的点，然后根据这k个点进行决策，如果是分类问题，决策结果就是K个点中出现最多的类别；如果是回归问题，结果值为K个点目标值的均值；
那么K值怎么选？
K值的选择会对k近邻算法的结果产生重大的影响。

具体怎么解释呢？以特殊情况入手来说，如果k值最小，等于1，这就意味着说，每次在对输入实例进行预测时，只考虑与其最近的实例，预测结果与最近的这个实例点密切相关，如果这个点恰巧为噪声点，就会出现误判，同时这样也会导致模型的过拟合，复杂度增加；如果K取值变得很大，等于N（训练实例总数），最后，无论距离度量方式是怎样的，最后的结果都是训练实例中出现最多的类，模型变得异常简单，预测时只要总是输出最多的类就可以了。

总体而言，如果k值太小，就相当于用较小的邻域中的训练实例进行预测，“学习”的近似误差会减小，缺点是“学习”的估计误差会增大，预测结果会对近邻的实例点非常敏感，如果近邻的实例点恰巧是噪声就会出错。换句话说，k值的减小意味着整体模型变复杂，容易发生过拟合；

如果k值太大，就相当于用较大的邻域中的训练实例进行预测，优点可以减小学习的估计误差，缺点是学习的近似误差增大，与输入实例较远的训练实例也会对预测起作用，使预测发生错误，k值的增大意味着整体模型变得简单。如果k=N，那么无论输入实例是什么，都将简单的预测它属于在训练实例中最多的类，模型过于简单，完全忽略训练实例中的大量有用信息。
“最近”如何确定？
距离度量方式，一般通过计算欧几里得距离进行比较，当然也有别的选择，如：曼哈顿距离，cos值等等；
最终结果怎么确定？（分类决策规则）
一般都是采用投票法，在选择的k个近邻点的标签值中，选择出现频率最高的作为输入实例的预测值。

总体而言，在数据集一定的情况下， K近邻算法的表现如何主要取决于上面提到的三个要素：K值的选择，距离度量的方式和分类决策规则。

算法描述

对未知类别属性的数据集中的每个点依次执行以下操作：

计算已知类别数据集中的点与当前点之间的距离；
按照距离递增次序排序；
选取与当前点距离最近的k个点；
确定前k个点所在类别的出现频率；
返回前k个点出现频率最高的类别作为当前点的预测分类。

优点

算法简单，模型容易理解，没有学习训练过程，通常情况下不需要做很大调整就有着不错的表现；因此通常用作一个问题的baseline（最差、最基本的解决方案）

局限性

当实例特征过多，或者实例中大部分为稀疏特征时，模型表现并不如意；
当数据集过大时，分类过程变得十分缓慢；
因此实际过程中，只能用来处理一些小数据集，同时数据特征不多的情况，并不常用！

原文地址：https://www.cnblogs.com/ysugyl/p/8728089.html

时间： 2024-11-07 15:09:29

K近邻算法小结的相关文章

02-16 k近邻算法

[TOC] 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ k近邻算法 k近邻算法(k-nearest neighbors,KNN)是一种基本的分类和回归方法,本文只探讨分类问题中的k近邻算法,回归问题通常是得出最近的$k$个实例的标记值,然后取这$k$实例标记值的平均数或中位数. k近邻算法经常被人们应用于生活当中,比如傅玄曾说过"近朱者赤近墨者黑&quo

『cs231n』作业1问题1选讲_通过代码理解K近邻算法&交叉验证选择超参数参数

通过K近邻算法探究numpy向量运算提速茴香豆的"茴"字有... ... 使用三种计算图片距离的方式实现K近邻算法: 1.最为基础的双循环 2.利用numpy的broadca机制实现单循环 3.利用broadcast和矩阵的数学性质实现无循环图片被拉伸为一维数组 X_train:(train_num, 一维数组) X:(test_num, 一维数组) 方法验证 import numpy as np a = np.array([[1,1,1],[2,2,2],[3,3,3]]) b

K 近邻算法

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,因为本人在学习初始时有非常多数学知识都已忘记,所以为了弄懂当中的内容查阅了非常多资料.所以里面应该会有引用其它帖子的小部分内容,假设原作者看到能够私信我,我会将您的帖子的地址付到以下. 3.假设有内容错误或不准确欢迎大家指正. 4.假设能帮到你.那真是太好了. 描写叙述给定一个训练数据集,对新的输入实例.在训练数据集中找到与该实例最邻近的K个实例,若这K个实

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法.距离度量谈到KD树.SIFT+BBF算法从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经网络:3.编程艺术第28章.你看到,blog内的文章与你于别处所见的任何都不同.于是,等啊等,等一台电脑,只好等待..”.得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时候,稍许感受到受人信任也是一种压力,愿我不辜负大家对我的信任)

K近邻算法

1.1.什么是K近邻算法何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居.为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属

K近邻算法-KNN

何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居.为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分

k近邻算法理论（一）

时间 :2014.07.05 地点:基地 ----------------------------------------------------------------------------------- 一.简述 K近邻法(k-nearest neighbor,kNN)是一种基本分类与回归方法.k近邻的输入为实例的特征向量,对应特征空间中的点,输出为实例的类别.k近邻算法的基本思想是:给定训练数据集,实例类别已定,在对目标实例进行分类时,我们根据与目标实例k个最近邻居的训练实例的类别,通过

机器学习实战笔记--k近邻算法

1 #encoding:utf-8 2 from numpy import * 3 import operator 4 import matplotlib 5 import matplotlib.pyplot as plt 6 7 from os import listdir 8 9 def makePhoto(returnMat,classLabelVector): #创建散点图 10 fig = plt.figure() 11 ax = fig.add_subplot(111) #例如参数为

基本分类方法——KNN(K近邻)算法

在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门算法. 参考内容如下:http://www.cnblogs.com/charlesblc/p/6193867.html 1.kNN算法又称为k近邻分类(k-nearest neighbor classification)算法. 最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于