机器学习笔记(二)——k-近邻算法

k-邻近算法概述

k-邻近算法采用测量不同特征值之间的距离方法进行分类

优点: 精度高、对异常值不敏感、无数据输入假定

缺点:计算复杂度高、空间复杂度高

使用数据范围:数值型和标称型

工作原理:存在一个样本数据集合(也称作训练样本集),并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最邻近)的分类标签。一般来说,选取样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

k-邻近算法代码分析:

对未知类别属性的数据集中的每个点依次执行以下操作:

(1)计算已知类别数据集中的点与当前点之间的距离;

(2)按照距离递增次序排序;

(3)选取与当前点距离最小的k个点;

(4)确定前k个点所在类别的出现频率;

(5)返回前k个点出现频率最高的类别作为当前点的预测分类。

代码如下:

 1 def classify0(inX, dataSet, labels, k):
 2     dataSetSize = dataSet.shape[0]
 3     diffMat = tile(inX, (dataSetSize,1)) - dataSet
 4     sqDiffMat = diffMat**2
 5     sqDistances = sqDiffMat.sum(axis=1)
 6     distances = sqDistances**0.5
 7     sortedDistIndicies = distances.argsort()
 8     classCount={}
 9     for i in range(k):
10         voteIlabel = labels[sortedDistIndicies[i]]
11         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
12     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
13     return sortedClassCount[0][0]

代码注解:

【1】shape[0] 计算矩阵的行数,shape[1]计算矩阵的列数

【2】tile 数组inX以dataSetSize行1列重复,例如:intX 为[0, 0],则tile计算后

[0, 0]

[0, 0]

[0, 0]

[0, 0]

.....   dataSetSize行

【3】** 是指次方, diffMat**2 为diffMat的平方, 比如[1, 2]**2 = [1, 4]

【4】sqDiffMat.sum(axis=1) 指array中每行元素的和,这些和再组成一个array:

  例如: >>>a = array([[1, 2], [2, 4]])

    >>>s = a.sum(axis=1)

    >>>s

    array([3, 6])

    >>>a = array([[1, 2, 3], [2, 3, 4]])

    >>>s = a.sum(axis=1)

    >>>s

    array([6, 9])

  但是如果array只有一行,例如array([1, 2]), 则不能用sum(axis=1),只能用sum()

【5】classCount = {}新建一个dict, dict提供的get方法,如果key不存在,可以返回None,或者自己指定的value,这里classCount.get(voteIlabel, 0)是指不存在相对应key值的value则返回0

  例如:   >>> d = {‘Michael‘: 95, ‘Bob‘: 75, ‘Tracy‘: 85}

        >>> d[‘Michael‘]

       95

       >>> d[‘Thomas‘]

       Traceback (most recent call last):

         File "<stdin>", line 1, in <module>

       KeyError: ‘Thomas‘

  要避免key不存在的错误,有两种办法,一是通过in判断key是否存在:

      >>> ‘Thomas‘ in d

      False

  二是通过dict提供的get方法,如果key不存在,可以返回None,或者自己指定的value:

      >>> d.get(‘Thomas‘)

      >>> d.get(‘Thomas‘, -1)

      -1

【6】sorted() 按classCount字典的第2个元素(即类别出现的次数)从大到小排序

测试代码运行效果:

    kNN.py文件:

 1 from numpy import *
 2 import operator
 3 def classify0(inX, dataSet, labels, k):
 4     dataSetSize = dataSet.shape[0]
 5     diffMat = tile(inX, (dataSetSize,1)) - dataSet
 6     sqDiffMat = diffMat**2
 7     sqDistances = sqDiffMat.sum(axis=1)
 8     distances = sqDistances**0.5
 9     sortedDistIndicies = distances.argsort()
10     classCount={}
11     for i in range(k):
12         voteIlabel = labels[sortedDistIndicies[i]]
13         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
14     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
15     return sortedClassCount[0][0]
16
17 def createDataSet():
18     group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
19     labels = [‘A‘,‘A‘,‘B‘,‘B‘]
20 return group, labels

时间: 2024-08-11 03:44:49

机器学习笔记(二)——k-近邻算法的相关文章

机器学习随笔01 - k近邻算法

算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. 度量每个特征的程度,将其数字化. 所有特征值构成元组,作为该对象的坐标. 计算待检测对象和所有已知对象的距离,选择距离最接近的k个已知对象 (k近邻中的k来源于此). 这k个对象中出现次数最多的分类就是待检测对象的分类. 重要前提: 需要有一批已经正确归类了的对象存在.也就是通常说的训练数据. 重

《机器学习实战》-k近邻算法

目录 K-近邻算法 k-近邻算法概述 解析和导入数据 使用 Python 导入数据 实施 kNN 分类算法 测试分类器 使用 k-近邻算法改进约会网站的配对效果 收集数据 准备数据:使用 Python 解析文本文件 分析数据:使用 Matplotlib 画二维散点图 准备数据:归一化数值 测试算法:验证分类器 使用算法:构建完整可用系统 手写识别系统 准备数据 测试算法 使用算法:构建完整可用系统 总结 K-近邻算法 k-近邻分类算法概述 使用 k-近邻算法改进约会网站的配对效果 手写识别系统

《机器学习实战》——K近邻算法

原理: (1) 输入点A,输入已知分类的数据集data (2) 求A与数据集中每个点的距离,归一化,并排序,选择距离最近的前K个点 (3) K个点进行投票,票数最多的分类即为所求 优点: 简单,可用于非线性分类 缺点: 当样本不均衡时影响投票结果: 分类结果受K值影响: 时空复杂度高:需要保存全部数据O(N),每次取前k个都要与全部数据进行计算O(N),耗费内存大且计算量大 改进: 样本均衡化 太小的K值容易受噪音影响,大的K值减小噪音但会使分类边界模糊,最合适的方法是用交叉验证确定K值:先确定

机器学习实战笔记-K近邻算法1(分类动作片与爱情片)

K近邻算法采用测量不同特征值之间的距离方法进行分类 K近邻算法特点: 优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高. 适用数据范围:数值型和标称型. K近邻算法原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的 特征进行比较,然后算法提取样本集中特征最相似数据(最近 邻)的分类标签.一般来说,我们只选择样本数据集中前k个最

机器学习实战笔记-K近邻算法2(改进约会网站的配对效果)

案例二.:使用K-近邻算法改进约会网站的配对效果 案例分析: 海伦收集的数据集有三类特征,分别是每年获得的飞行常客里程数.玩视频游戏所耗时间百分比. 每周消费的冰淇淋公升数.我们需要将新数据的每个新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签.一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数.最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类. 流程:在约会网站上使用K

机器学习实战笔记--k近邻算法

1 #encoding:utf-8 2 from numpy import * 3 import operator 4 import matplotlib 5 import matplotlib.pyplot as plt 6 7 from os import listdir 8 9 def makePhoto(returnMat,classLabelVector): #创建散点图 10 fig = plt.figure() 11 ax = fig.add_subplot(111) #例如参数为

web安全之机器学习入门——3.1 KNN/k近邻算法

目录 sklearn.neighbors.NearestNeighbors 参数/方法 基础用法 用于监督学习 检测异常操作(一) 检测异常操作(二) 检测rootkit 检测webshell sklearn.neighbors.NearestNeighbors 参数: 方法: 基础用法 print(__doc__) from sklearn.neighbors import NearestNeighbors import numpy as np X = np.array([[-1, -1],

《机器学习实战》学习笔记一K邻近算法

 一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征(向量的每个元素)与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的的分类标签.由于样本集可以很大,我们选取前k个最相似数据,然后统计k个数据中出现频率最高的标签为新数据的标签. K邻近算法的一般流程: (1)收集数据:可以是本地数据,也可以从网页抓取. (2)准备数

KNN K~近邻算法笔记

K~近邻算法是最简单的机器学习算法.工作原理就是:将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据的分类标签.一般来说,只提取样本数据集中前K个最相似的数据.通常K不大于20,最后选择K个最相似数据中出现次数最多的分类,最为新的数据分类. 但是K~近邻算法必须保存全部的数据集,如果训练数据集很大,必须使用打量的存储空间.此外,由于必须对数据集中每个数据集计算距离值,实际使用起来会非常耗时间.

R语言学习笔记—K近邻算法

K近邻算法(KNN)是指一个样本如果在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性.即每个样本都可以用它最接近的k个邻居来代表.KNN算法适合分类,也适合回归.KNN算法广泛应用在推荐系统.语义搜索.异常检测. KNN算法分类原理图: 图中绿色的圆点是归属在红色三角还是蓝色方块一类?如果K=5(离绿色圆点最近的5个邻居,虚线圈内),则有3个蓝色方块是绿色圆点的"最近邻居",比例为3/5,因此绿色圆点应当划归到蓝色方块一类:如果