KNN距离函数的简单拓展

KNN--k-NearestNeighbor可以是是分类法中最简单的算法了。

大致的idea为:找出k各跟新数据点最像的点,看这些点主要属于哪类,那么新数据点也就属于哪类的了。

其伪代码如下:

1. 拿到一个新的数据点

2. 计算其到training set中每个点的距离

3. 对距离排序

4. 对距离新数据点最近的前k个点的label数进行统计,出现次数最多的种类则为新数据点的label

在本篇随笔中,我们最要对距离函数进行讨论。

标准的kNN是使用二范数进行计算距离的,其实我们也还可以使用其他范数(1范数~无穷范数)等范数进行距离计算。

同时,我们也可以考虑参考SVM的kernel trick使用gaussian kernel来算距离。也可以考虑使用余弦函数算距离。

那么,实际应用中我们怎么选取合适的距离函数呢?

可以考虑是用k-fold的方法来试错得出。

简单的说,就是对使用以上各种距离函数的kNN:把data set分成k组。重复k次,每次选第k组为training set,剩下的为testing set。

计算总的错误数,然后排序,找到能使错误数最小的距离函数。

时间: 2024-11-19 11:13:38

KNN距离函数的简单拓展的相关文章

康复计划#5 Matrix-Tree定理(生成树计数)的另类证明和简单拓展

本篇口胡写给我自己这样的什么都乱证一通的口胡选手 以及那些刚学Matrix-Tree,大致理解了常见的证明但还想看看有什么简单拓展的人- 大概讲一下我自己对Matrix-Tree定理的一些理解.常见版本的证明.我自己的证明,以及简单的一些应用(比如推广到有向图.推广到生成树边权的乘积和什么的,非常基础). 应该看到这里的人都知道Matrix-Tree定理是干什么的吧-就是统计一个无向图的生成树个数,表示成一个行列式. 1.前置定义及性质 首先是Matrix-Tree定理相关的定义:对于一个无向图

KNN算法的简单实现

一  算法原理:已知一个训练样本集,其中每个训练样本都有自己的标记(label),即我们知道样本集中每一个样本数据与所属分类的对应关系.输入没有标记的新数据后,将新数据的每个特征与样本集中的数据对应的特征进行比较,然后提取样本集中特征最相似数据的分类标记.一般的,我们选择样本集中前k个最相似的数据分类标签,其中出现次数最多的分类作为我们新数据的分类标记.简单的说,k_近邻算法采用测量不同特征值之间的距离方法进行分类. 算法优点: 精度高.对异常值不敏感,无数据输入假设. 算法缺点: 由于要将每个

【转】【量化课堂】一只兔子帮你理解 kNN

导语:商业哲学家 Jim Rohn 说过一句话,"你,就是你最常接触的五个人的平均."那么,在分析一个人时,我们不妨观察和他最亲密的几个人.同理的,在判定一个未知事物时,可以观察离它最近的几个样本,这就是 kNN(k最近邻)的方法. 作者:肖睿 编辑:宏观经济算命师 本文由JoinQuant量化课堂推出,本文的难度属于进阶(上),深度为 level-1 简介 kNN(k-Nearest Neighbours)是机器学习中最简单易懂的算法,它的适用面很广,并且在样本量足够大的情况下准确度

深入浅出KNN算法(一) 介绍篇

一.KNN算法概述 KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的.那么什么是KNN算法呢,接下来我们就来介绍介绍吧. 二.KNN算法介绍 KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出一些KNN算法的蛛丝马迹了.K个最近邻居,毫无疑问,K的取值肯定是至关重要的.那么最近的邻居又是怎么

基于kNN的手写字体识别——《机器学习实战》笔记

看完一节<机器学习实战>,算是踏入ML的大门了吧!这里就详细讲一下一个demo:使用kNN算法实现手写字体的简单识别 kNN 先简单介绍一下kNN,就是所谓的K-近邻算法: [作用原理]:存在一个样本数据集合.每个样本数据都存在标签.输入没有标签的新数据后,将新数据的每个特征与样本集数据的对应特征进行比较,然后算法提取样本集中最相似的分类标签.一般说来,我们只选择样本数据集中前k个最相似的数据,最后,选择这k个相似数据中出现次数最多的分类,作为新数据的分类. 通俗的说,举例说明:有一群明确国籍

机器学习---K最近邻(k-Nearest Neighbour,KNN)分类算法

K最近邻(k-Nearest Neighbour,KNN)分类算法 1.K最近邻(k-Nearest Neighbour,KNN) K最近邻(k-Nearest Neighbour,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实

kNN(K-Nearest Neighbor)最邻近规则分类

KNN最邻近规则,主要应用领域是对未知事物的识别,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的的特征最接近: K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.KNN算法中,所选择的邻居都是已经正确分类的对象.该方法在定类决策上只依据最邻近的一个或

机器学习算法---KNN

KNN最邻近规则,主要应用领域是对未知事物的识别,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的的特征最接近: K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.KNN算法中,所选择的邻居都是已经正确分类的对象.该方法在定类决策上只依据最邻近的一个或

KNN

1,  KNN算法概述 简单地说,KNN算法采用测量不同特征值之间的距离方法进行分类. 举个例子: 我们可以通过电影里出现 kiss(接吻) 和 kick(打斗) 的次数多少来判断它是属于Romance type(爱情片)还是动作片 假设我们统计了前6部电影的kicks次数,kisses的次数和类型,现在问题来了,如果我知道这么一部电影它的kicks次数为18,kisses次数为90,那么它属于什么类型呢? KNN可以用来解决这个问题. 如上图 我们可以计算 '?'未知电影和已知的所有电影的欧几