机器学习算法学习---处理分类问题常用算法（二）

k-近邻算法采用测量不同特征值之间的距离方法进行分类。

优点：精度高、对异常值不敏感、无数据输入假定。

缺点：计算复杂度高、空间复杂度高。

适用范围：数值型、标称型。

工作原理：存在一个样本数据集合（训练样本集），并且样本集中每个数据都存在标签。输入没有标签的新数据后，将数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相近数据的分类标签。

python实现简单的KNN算法如下：

KNN

from numpy import *

import operator

def getDataSet():

group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

labels=[‘A‘,‘A‘,‘B‘,‘B‘]

return group,labels

def classfy0(inX,dataSet,labels,k):

dataSetSize=dataSet.shape[0]

diffMat=tile(inX,(dataSetSize,1))-dataSet

sqdiffMat=diffMat**2

sqDistances=sqdiffMat.sum(1)

distances=sqDistances**0.5

sortedDistIndicies=distances.argsort()

classCount={}

for i in range(k):

voteIlabel=labels[sortedDistIndicies[i]]

classCount[voteIlabel]=classCount.get(voteIlabel,0)+1

sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

return sortedClassCount[0][0]

group,labels=getDataSet()

print(classfy0([0,0],group,labels,3))

该算法用到的距离计算为欧式距离公式。

原文地址：https://www.cnblogs.com/zhenpengwang/p/10792648.html

时间： 2024-12-18 00:15:17

机器学习算法学习---处理分类问题常用算法（二）的相关文章

机器学习算法学习---处理聚类问题常用算法（二）

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集. DBSCAN的主要优点有: 1) 可以对任意形状的稠密数据集进行聚类,相对的,K-Means之类的聚类算法一般只适用于凸数据集. 2) 可以在聚类的同时发现异常点,对数据集中的异常点

深度学习之目标检测常用算法原理+实践精讲

第1章课程介绍本章节主要介绍课程的主要内容.核心知识点.课程涉及到的应用案例.深度学习算法设计通用流程.适应人群.学习本门课程的前置条件.学习后达到的效果等,帮助大家从整体上了解本门课程的整体脉络. 第2章目标检测算法基础介绍本章节主要介绍目标检测算法的基本概念.传统的目标检测算法.目前深度学习目标检测主流方法(one-stage.two-stage.多任务网络).相关算法的基本流程.算法性能的评价指标.不同算法的优缺点和性能比较等,并结合实际的应用场景和案例来介绍目标检测算法的重要性和实用

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络资源获取链接:点击这里第1章课程介绍本章节主要介绍课程的主要内容.核心知识点.课程涉及到的应用案例.深度学习算法设计通用流程.适应人群.学习本门课程的前置条件.学习后达到的效果等,帮助大家从整体上了解本门课程的整体脉络. 1-1 课程导学第2章目标检测算法基础介绍本章节主要介绍目标检测算法的基本概念.传统的目标检测算法.目前深度学习目标检测主流方法(one-sta

数据挖掘算法学习（三）NaiveBayes算法

算法简单介绍 NBC是应用最广的分类算法之中的一个.朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率.同一时候,NBC模型所需预计的參数非常少,对缺失数据不太敏感,算法也比較简单. 算法如果给定目标值时属性之间互相条件独立. 算法输入训练数据 T={(x1,y1),(x2,y2),--,(xn,yn)} 待分类数据x0=(x0(1),x0(2),--,x0(n))T 算法输出待分类数据x0的分类结果y0∈{c1,c2,--,ck} 算法思想 weka执行以we

数据挖掘算法学习（一）K-Means算法

博主最近实习开始接触数据挖掘,将学习笔记分享给大家.目前用的软件是weka,下篇文章会着重讲解. 算法简介: K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类.并使得所获得的聚类满足:同一聚类中的对象相似度较高:而不同聚类对象相似度较小. 算法假设: 均方误差是计算群组分散度的最佳参数. 算法输入: 聚类个数k:包含n个数据对象的数据集. 算法输出: k个聚类算法思想: (a)绿点表示数据集在二级的欧几里德空间,初始化的中心点u1和u2用红的和蓝

数据挖掘算法学习（四）PCA算法

算法简介主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理.压缩和抽提的有效方法.主要用于对特征进行降维. 算法假设数据的概率分布满足高斯分布或是指数型的概率分布.方差高的向量视为主元. 算法输入包含n条记录的数据集算法输出降维或压缩后的数据集算法思想 ?1.计算所有样本的均值m和协方差矩阵S: ?2.计算S的特征值,并由大到小排序: ?3.选择前n'个特征值对应的特征矢量作成一个变换矩阵E=[e1,e2, -,

处理分类问题常用算法(二)-----算法岗面试题

● 分层抽样的适用范围参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样. ● LR的损失函数参考回答: M为样本个数,为模型对样本i的预测结果,为样本i的真实标签. ● LR和线性回归的区别参考回答: 线性回归用来做预测,LR用来做分类.线性回归是来拟合函数,LR是来预测函数.线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数.线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性. ● 生

从机器学习到学习的机器，数据分析算法也需要好管家

(上图为IBM大数据与分析事业部全球研发副总裁Dinesh Nirmal) 今年是莎士比亚逝世四百周年.在莎翁名剧<尤利乌斯·凯撒>中一个占卜师有这样一句没有上下文的预言:"请小心'三月'中", 凯撒听后不知道这句话是何意思,于是说让这个占卜师继续做梦吧.结果在三月十五日,凯撒被密谋暗杀.类似的,今天的预测算法可以告诉你一个预言,但却无法提供合适的上下文,这让人难以做出进一步行动的决策. 另一个关于预测算法的例子是在最新的<复仇者联盟3>中,出现了一个人工智能合

处理分类问题常用算法(一)-------算法岗面试题

交叉熵公式参考回答: 交叉熵:设p(x).q(x)是X中取值的两个概率分布,则p对q的相对熵是: 在一定程度上,相对熵可以度量两个随机变量的“距离”,且有D(p||q) ≠D(q||p).另外,值得一提的是,D(p||q)是必然大于等于0的. 互信息:两个随机变量X,Y的互信息定义为X,Y的联合分布和各自独立分布乘积的相对熵,用I(X,Y)表示: 且有I(X,Y)=D(P(X,Y)||P(X)P(Y)).下面,咱们来计算下H(Y)-I(X,Y)的结果,如下: ● LR公式参考回答: 逻辑回归