算法小记-K近邻

K近邻算法和其他机器学习模型比，有个特点：即非参数化的局部模型。

其他机器学习模型一般都是基于训练数据，得出一般性知识，这些知识的表现是一个全局性模型的结构和参数。模型你和好了后，不再依赖训练数据，直接用参数去预测新的未知数据。

K近邻算法并不是预先计算出参数，而且对于特定的预测实例，K近邻预测只是基于关联到的局部数据，不需要依赖全部数据。

K近邻是基于实例的学习，学习的不是明确的泛化模型，而是样本之间的关系。通过样本之间的关系，来确定新样本的输出。

K近邻原理：简单说就是“近朱者赤近墨者黑”。对于新样本，它会寻找离新样本最近的K个训练样本，从K个样本里推算出新样本的输出，比如多数样本所属的类别即为新样本的预测类别。K属于算法超参数，需要预先指定。K的不同对于预测结果影响较大。如下图K=3和K=5对预测结果有不一样的输出。

从KNN原理上，我们可以知道，KNN无需训练，但是预测时需要计算出离新样本最近的k个点。

如何寻找离新样本最近的K个点，这是一个问题。我们在另一篇文章里解决这个问题。

原文地址：https://www.cnblogs.com/louffy/p/9497687.html

时间： 2024-10-11 04:10:51

算法小记-K近邻的相关文章

李航统计学习方法——算法2——k近邻法

一.K近邻算法 k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法,输入实例的特征向量,输出实例的类别,其中类别可取多类二.k近邻模型 2.1 距离度量距离定义: (1)当p=1,称为曼哈顿距离 (2)当p=2,称为欧式距离 (3)当p取无穷大时,它是各个坐标距离的最大值 max|xi-xj| 注意:p值的选择会影响分类结果,例如二维空间的三个点 x1=(1,1),x2=(5,1), x3=(4,4) 由于x1和x2只有第二维上不同,不管p值如何变化,Lp始终

机器学习算法：k近邻

前言: 最近在研究机器学习,过程中的心得体会会记录到blog里,文章与代码均为原创.会不定期龟速更新.注意这不是教程,但是估计能帮到一些刚入门的同学. ------------------------ 我是分割线 ------------------------ k近邻(k-Nearest Neighbor,KNN)算法,应该是机器学习里最基础的算法,其核心思想是:给定一个未知分类的样本,如果与它最相似的k个已知样本中的多数属于某一个分类,那么这个未知样本也属于这个分类. 所谓相似,是指两个样本

经典算法之K近邻（回归部分）

1.算法原理 1.分类和回归分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化. 一般来说,回归问题通常是用来预测一个值,如预测房价.未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析.回归是对真实值的一种逼近预测. 分类问题是用于将事物打上一个标签,通常结果为离散值.例如判断一幅图片上的动物是一只猫还是一只狗.分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念. 简言之: 定量输出称为回归

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法.距离度量谈到KD树.SIFT+BBF算法从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经网络:3.编程艺术第28章.你看到,blog内的文章与你于别处所见的任何都不同.于是,等啊等,等一台电脑,只好等待..”.得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时候,稍许感受到受人信任也是一种压力,愿我不辜负大家对我的信任)

K近邻算法

1.1.什么是K近邻算法何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居.为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属

k近邻算法理论（一）

时间 :2014.07.05 地点:基地 ----------------------------------------------------------------------------------- 一.简述 K近邻法(k-nearest neighbor,kNN)是一种基本分类与回归方法.k近邻的输入为实例的特征向量,对应特征空间中的点,输出为实例的类别.k近邻算法的基本思想是:给定训练数据集,实例类别已定,在对目标实例进行分类时,我们根据与目标实例k个最近邻居的训练实例的类别,通过

基本分类方法——KNN(K近邻)算法

在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门算法. 参考内容如下:http://www.cnblogs.com/charlesblc/p/6193867.html 1.kNN算法又称为k近邻分类(k-nearest neighbor classification)算法. 最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于

使用K近邻算法实现手写体识别系统

目录 1. 应用介绍 1.1实验环境介绍 1.2应用背景介绍 2. 数据来源及预处理 2.1数据来源及格式 2.2数据预处理 3. 算法设计与实现 3.1手写体识别系统算法实现过程 3.2 K近邻算法实现 3.3手写体识别系统实现 3.4算法改进与优化 4. 系统运行过程与结果展示 1.应用介绍 1.1实验环境介绍本次实验主要使用Python语言开发完成,Python的版本为2.7,并且使用numpy函数库做一些数值计算和处理. 1.2应用背景介绍本次实验实现的是简易的手写体识别系统,即根据

机器学习随笔01 - k近邻算法

算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. 度量每个特征的程度,将其数字化. 所有特征值构成元组,作为该对象的坐标. 计算待检测对象和所有已知对象的距离,选择距离最接近的k个已知对象 (k近邻中的k来源于此). 这k个对象中出现次数最多的分类就是待检测对象的分类. 重要前提: 需要有一批已经正确归类了的对象存在.也就是通常说的训练数据. 重