图说十大数据挖掘算法(一)K最近邻算法

如果你之前没有学习过K最近邻算法，那今天几张图，让你明白什么是K最近邻算法。

先来一张图，请分辨它是什么水果

很多同学不假思索，直接回答：“菠萝”！！！

仔细看看同学们，这是菠萝么？那再看下边这这张图。

这两个水果又是什么呢？

这就是菠萝与凤梨的故事，下边即将用菠萝和凤梨，给大家讲述怎么用一个算法来知道这是个什么水果的过程，也就是什么是K最近邻算法。

（给非吃货同学们补充一个生活小常识，菠萝的叶子有刺，凤梨没有。菠萝的凹槽处是黄色的，而凤梨的凹槽处是绿色的，以后千万不要买错哦！！！）

上边这张图中，我们定义了两个维度的特征：

一个是叶子是否有刺
一个是凹槽处是否的颜色

问：一个新的水果来了，我们怎么判断他是什么水果呢？

方法如下：

（看这个神秘水果与哪个水果的举例近。同等举例，看离它最近的水果中，哪个水果多）

根据上图中，我们判断，这个神秘水果那就是菠萝啦，原因是离它近的水果中菠萝比凤梨多。

相信到这里，大家都已经明白了什么是K最近邻算法了吧！

假设我们有3中不知名的水果

我们现在根据其大小和颜色的特征，把它们放入图表中

那如我们如何判断他们有多像呢？

具体的计算，可以使用毕达哥拉斯公式

那现在来计算水果A和水果B之间的距离

最后的计算结果为1

那么同理，如果要让你去做一个推荐系统，我们可以把人的用户画像放在一个表格里

如果我们给其中一个人推荐他可能感兴趣的书、电影、美食等，就可以看一下离他最近距离的这些人都在做什么，然后就套用下边的公式就可以了

无论多少维度，直接套用就可以了。

图说算法，是不是非常的简单就理解了KNN。

原文地址：https://www.cnblogs.com/hadoop2015/p/10199563.html

时间： 2024-10-25 11:27:16

图说十大数据挖掘算法(一)K最近邻算法的相关文章

分类算法——k最近邻算法（Python实现）（文末附工程源代码）

kNN算法原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法.它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样本中大多数属于某一个类别,则该样本也属于这个类别. kNN算法的步骤第一阶段:确定k值(指最近的邻居的个数),一般是一个奇数第二阶段:确定距离度量公式.文本分类一般使用夹角余弦,得出待分类数据点和所有已知类别的样本点,从中选择距离最近的k个样本: 第三阶段:统计这k个样本点钟各个类别的数量 kN

十大数据挖掘算法

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响.1. C4.5C4.5

转载： scikit-learn学习之K最近邻算法(KNN)

版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ====================================================================== 本系列博客主要参考 Scikit-Learn 官方网站上的每一个算法进行,并进行部分翻译,如有错误,请大家指正 ==============================================

[十大数据挖掘算法] AdaBoost

AdaBoost Binary Classify AdaBoost Multidimensional WEKA源码分析

机器学习——k最近邻算法(K-Nearest Neighbor,Python实现)

一.什么是看KNN算法? 二.KNN算法的一般流程三.KNN算法的Python代码实现 numpy模块参考教程:http://old.sebug.net/paper/books/scipydoc/index.html 一:什么是看KNN算法? kNN算法全称是k-最近邻算法(K-Nearest Neighbor) kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性.该方法在确定分类决策上只依据最邻近的一个

数据挖掘十大算法之Apriori详解

在2006年12月召开的 IEEE 数据挖掘国际会议上(ICDM, International Conference on Data Mining),与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms ),可以参见文献[1].本博客已经介绍过的位列十大算法之中的算法包括: [1] k-means算法(http://blog.csdn.net/baimafujinji/article/details/50570824) [2] 支持向量机SVM