机器学习实战-K-nearest neighbors 算法的优缺点

K临近算法是基于实例的学习，使用算法的时候我们必须要有接近分类结果的实例训练样本数据。

优点：精度高，对异常值不敏感

缺点：

时间复杂度和空间复杂度比较大。（如果训练样本数据集比较大，需要大量的空间来保存数据，并且需要待预测数据和训练样本数据集每条数据的距离，耗费时间。）
无法给出任何数据的基础结构信息，因此无法知晓平均实例样本和典型事例样本有什么特征。
无法持久化分类器。

时间： 2024-10-16 13:01:02

机器学习实战-K-nearest neighbors 算法的优缺点的相关文章

[C++与机器学习] k-近邻算法（K–nearest neighbors）

C++ with Machine Learning -K–nearest neighbors 我本想写C++与人工智能,但是转念一想,人工智能范围太大了,我根本介绍不完也没能力介绍完,所以还是取了他的子集.我想这应该是一个有关机器学习的系列文章,我会不定期更新文章,希望喜欢机器学习的朋友不宁赐教. 本系列特别之处是与一些实例相结合来系统的讲解有关机器学习的各种算法,由于能力和时间有限,不会向诸如Simon Haykin<<NEURAL NETWORKS>>等大块头详细的讲解某一个领

机器学习实战(一)k-近邻算法

转载请注明源出处:http://www.cnblogs.com/lighten/p/7593656.html 1.原理本章介绍机器学习实战的第一个算法--k近邻算法(k Nearest Neighbor),也称为kNN.说到机器学习,一般都认为是很复杂,很高深的内容,但实际上其学习门栏并不算高,具备基本的高等数学知识(包括线性代数,概率论)就可以了,甚至一些算法高中生就能够理解了.kNN算法就是一个原理很好理解的算法,不需要多好的数学功底,这是一个分类算法(另一个大类是回归),属于监督学习的范

K Nearest Neighbor 算法

K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法.其中的K表示最接近自己的K个数据样本.KNN算法和K-Means算法不同的是,K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类的,也就是说,有一个样本空间里的样本分成很几个类型,然后,给定一个待分类的数据,通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类.你可以简单的理解为由那离自己最近的K个点来投

《机器学习实战》Logistic回归算法（1）

===================================================================== <机器学习实战>系列博客是博主阅读<机器学习实战>这本书的笔记也包含一些其他python实现的机器学习算法算法实现均采用python github 源码同步:https://github.com/Thinkgamer/Machine-Learning-With-Python ==================================

机器学习实战精读--------K-近邻算法

对机器学习实战的课本和代码进行精读,帮助自己进步. #coding:utf-8 from numpy import * import operator #运算符模块 from os import listdir #os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表.这个列表以字母顺序. 它不包括 '.' 和'..' 即使它在文件夹中. #创建数据集和标签 def createDataSet(): group = array([[1.0,1.1],[1.0,

OpenCV K-d树实现之FLANN (Fast Library for Approximate Nearest Neighbors) 算法实现及解析

k-d树搜索最近点,在opencv中使用FLANN算法,其包含: 1:建树 2.查询程序见下: #include "kdtree.h" #include <iostream> #include <iomanip> #include "cv.h" #include "highgui.h" #include <fstream> #include "cv.h" #include "

机器学习实战笔记——基于KNN算法的手写识别系统

本文主要利用k-近邻分类器实现手写识别系统,训练数据集大约2000个样本,每个数字大约有200个样本,每个样本保存在一个txt文件中,手写体图像本身是32X32的二值图像,如下图所示: 首先,我们需要将图像格式化处理为一个向量,把一个32X32的二进制图像矩阵通过img2vector()函数转换为1X1024的向量: def img2vector(filename): returnVect = zeros((1,1024)) fr = open(filename) for i in range(

机器学习实战笔记9(Apriori算法)

Apriori算法也属于无监督学习,它强调的是"从数据X中能够发现什么".从大规模的数据集中寻找物品之间隐含关系被称为关联分析或者称为关联规则学习.这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索并不能解决这个问题.因此此处介绍使用Apriorio算法来解决上述问题. 1:简单概念描述 (1) 频繁项集:指经常出现在一块的物品的集合. 关联规则暗示两种物品之间存在很强的关系.(这里我们事先定义阀值,超过该阀值,证明两者之

机器学习实战笔记——利用KNN算法改进约会网站的配对效果

一.案例背景我的朋友海伦一直使用在线约会网站寻找合适自己的约会对象.尽管约会网站会推荐不同的人选,但她并不是喜欢每一个人.经过一番总结,她发现曾交往过三种类型的人: (1)不喜欢的人: (2)魅力一般的人: (3)极具魅力的人: 尽管发现了上述规律,但海伦依然无法将约会网站推荐的匹配对象归入恰当的分类,她觉得可以在周一到周五约会那些魅力一般的人,而周末则更喜欢与那些极具魅力的人为伴.海伦希望我们的分类软件可以更好地帮助她将匹配对象划分到确切的分类中.此外,海伦还收集了一些约会网站未曾记录的数据