机器学习-KNN近邻算法

参看文章：

《机器学习-周志华》

《机器学习实战-Peter Harrington》

《统计学习方法-李航》

算法介绍：

k近邻学习是一种常用的监督学习方法，其工作机制如下，给定测试样本，基于某种距离度量（曼哈顿距离、欧氏距离、切比雪夫距离、Lp距离、Minkowski距离）找出训练集中与其最靠近的k个训练样本，然后基于这k个“邻居”的信息来进行预测。

argmax(f(x))是使得 f(x)取得最大值所对应的变量点x

投票法：

在分类任务中使用，选择k个样本出现最多的类别标记作为预测结果

平均法：

在回归任务中使用，即将k个样本的实值输出标记的平均值作为预测结果

距离权重法：

称为k近邻算法的优化算法，为每个点的距离增加一个权重，使得距离近的点可以得到更大的权重，既可用于加权平均又可用于加权投票。

优点：

1.理论成熟，思想简单，既可以用来做分类又可以做回归

2.训练时间复杂度为O(n)；无数据输入假定；

3.可用于数值型数据和离散型数据；

4.对异常值不敏感

缺点：

1.计算复杂度高，因无显示的训练过程

2.对k值、距离敏感，不同k值与距离计算方法可能结果不同

3.无法给出任何数据的基础结构信息

最近邻分类器（k = 1）

错误率（暂未看懂）

实现方法：

1. kd树

2. 传统法

代码：

原文地址：https://www.cnblogs.com/Jacon-hunt/p/11366830.html

时间： 2024-11-09 09:57:08

机器学习-KNN近邻算法的相关文章

机器学习之利用KNN近邻算法预测数据

前半部分是简介, 后半部分是案例 KNN近邻算法: 简单说就是采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor,KNN) 优点: 精度高.对异常值不敏感.无数据输入假定缺点:时间复杂度高.空间复杂度高 1.当样本不平衡时,比如一个类的样本容量很大,其他类的样本容量很小,输入一个样本的时候,K个临近值中大多数都是大样本容量的那个类,这时可能就会导致分类错误.改进方法是对K临近点进行加权,也就是距离近的点的权值大,距离远的点权值小. 2.计算量较大,每个待分类的样本都

机器学习之近邻算法模型(KNN)

1..导引如何进行电影分类众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问题.没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格上的确有可能会和同题材的电影相近.那么动作片具有哪些共有特征,使得动作片之间非常类似, 而与爱情片存在着明显的差别呢?动作片中也会存在接吻镜头,爱情片中也会存在打斗场景,我们不能单纯依靠是否存在打斗或者亲吻来

初识分类算法(1)------knn近邻算法

例子:某人想要由以下1000行训练样本数据构建一个分类器,将数据分成3类(喜欢,一般,不喜欢).样本数据的特征有主要有3个, A:每年获得的飞行常客里程数 B:玩视频游戏所耗时间百分比 C:每周消费冰淇淋公升数 1. 数据的读取 1 filename='D://machine_learn//Ch02//datingTestSet2.txt' 2 def file2matrix(filename): 3 fr = open(filename) 4 a=fr.readlines() 5 number

[Machine :Learning] kNN近邻算法

from numpy import * import operator def createDataSet() : group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 1.1]]) labels = ['A', 'A', 'B', 'B'] return group, labels ''' tile(array, (intR, intC): 对矩阵进行组合,纵向复制intR次, 横向复制intC次比如 : tile([1,2,3], (3, 2

机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)

六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocessing.py import numpy as np class StandardScaler: def __init__(self): self.mean_ = None self.scale_ = None def fit(self, X): """根据训练数据集X获得数据的均

机器学习——KNN K-邻近算法

KNN分类算法,是理论上比较成熟的方法,也是最简单的机器学习算法之一. 该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. KNN算法中,所选择的邻居都是已经正确分类的对象.该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别. 一个对于KNN算法解释最清楚的图如下所示: 蓝方块和红三角均是已有分类数据,当前的任务是将绿色圆块进行分类判断,判断是属于蓝方块或者红三角. 当然这里的分类还跟K值

机器学习---K最近邻(k-Nearest Neighbour，KNN)分类算法

K最近邻(k-Nearest Neighbour,KNN)分类算法 1.K最近邻(k-Nearest Neighbour,KNN) K最近邻(k-Nearest Neighbour,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实

基本分类方法——KNN(K近邻)算法

在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门算法. 参考内容如下:http://www.cnblogs.com/charlesblc/p/6193867.html 1.kNN算法又称为k近邻分类(k-nearest neighbor classification)算法. 最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于

机器学习实战笔记-K近邻算法1（分类动作片与爱情片）

K近邻算法采用测量不同特征值之间的距离方法进行分类 K近邻算法特点: 优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高. 适用数据范围:数值型和标称型. K近邻算法原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签.一般来说,我们只选择样本数据集中前k个最