机器学习 (一)------分类

机器学习 (一)------分类

机器学习分类

机器学习分为监督学习和无监督学习两类。

监督学习是指在有标记的样本上建立机器学习的模型(这类算法知道预测什么,即目标变量的分类信息)。

无监督学习恰恰相反,是指没有标记的数据上建立学习模型。

主要任务:

分类:主要任务是将实例数据划分到合适的分类中。

回归:例如数据拟合曲线(根据给定数据点的最优拟合曲线),主要用于预测数值型数据。

如何选择合适的算法:

从上表中选择实际可用的算法,要考虑以下两个方面的问题:

1、使用机器学习算法的目的,想要算法完成何种任务;

2、需要分析和收集的数据是什么;

主要了解数据的以下特征:特征值是离散型变量还是连续型变量,特征值是否存在缺失值,何种原因造成的缺失,数据中是否存在异常值,某个特征发生的频率如何等。

使用算法创建应用程序的步骤:

(1)收集数据(网络爬虫抽取、从RRS反馈或者API中得到,设备发送的实测数据);

(2)准备输入数据(确保数据格式符合要求);

(3)分析输入数据(人工分析以前得到的数据);

(4)训练算法(将前面得到的格式化数据输入到算法,从中抽取知识或信息;无监督学习没有这一步);

(5)测试算法(使用上一部机器学习得到的知识信息);

(6)使用算法(将机器学习算法转换为应用程序)。

一、K-近邻算法

1、算法概述

简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。

2、算法优缺点

优点:精度高,对异常值不敏感、无数据输入设定;

缺点:计算复杂度高、空间复杂度高;

使用数据范围:数值型和标称型。

3、算法工作原理

存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中K的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

二、决策树
1、算法概述

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树算法能够读取数据集合,他的一个重要任务是为了理解数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,这些机器根据数据集创建规则的过程,就是机器学习的过程。

2、算法优缺点

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据;

缺点:可能会产生过渡匹配问题;

适用数据类型:数值型和标称型。

3、决策树的构造

首先,讨论数学上如何适用信息论划分数据集;

然后,编写代码将理论应用到具体的数据集上;

最后,编写代码构建决策树。

4、信息增益

划分数据的大原则是:将无序的数据变得更加有序。

方法:使用信息论量化度量信息的内容。

信息增益:指在划分数据集之前之后信息发生的变化。

熵:指信息的期望值。

5、划分数据集

度量划分数据集的熵,以便判断按照哪个特征划分数据集。对每个特征划分数据集的结果计算一次信息熵,然后判断哪个特征划分数据集是最好的划分方式。

6、递归构建决策树

从数据集构造决策树算法所需要的子功能模块,其工作原理如下:得到原始数据集,然后基于最好的属性值划分数据集,由于特征值可能多于两个,一次可能存在大于两个分支的数据集划分。第一次划分之后,数据将被向下传递到树分支的下一个节点,在这个节点上,我们再次划分数据。

递归结束的条件是:程序遍历完所有的划分数据集的属性,或者每个分支下的所有实例都具有相同的分类。如果所有的实例具有相同的分类,则得到一个叶子结点或者终止块。任何到达叶子结点的数据必然属于叶子结点的分类。

三、基于概率论的分类方法:朴素贝叶斯

1、概念

简单的概率分类器开始,‘朴素’是因为整个形式化过程只做最原始、最简单的假设。

朴素贝叶斯分类器的两个假设:独立性假设;每个特征同等重要。

2、算法优缺点

优点:在数据较少的情况下仍然有效,可以处理多类别问题;

缺点:对于输入数据的准备方式较为敏感;

适用数据类型:标称型数据。

3、条件概率

某一事件发生的条件下另外的事件发生的概率。

4、使用条件概率进行分类

满足条件一类,不满足条件一类。

5、使用朴素贝叶斯进行文档分类

观察文档中出现的词,并把没歌词的出现或者不出现作为一个特征,是用于文档分类的常用算法。

总结

对于分类而言,使用概率有时要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计位置概率的有效方法。

原文地址:https://www.cnblogs.com/ST-2017/p/10264359.html

时间: 2024-10-08 12:34:37

机器学习 (一)------分类的相关文章

机器学习——非均衡分类问题

在机器学习的分类问题中,我们都假设所有类别的分类代价是一样的.但是事实上,不同分类的代价是不一样的,比如我们通过一个用于检测患病的系统来检测马匹是否能继续存活,如果我们把能存活的马匹检测成患病,那么这匹马可能就会被执行安乐死:如果我们把不能存活的马匹检测成健康,那么就会继续喂养这匹马.一个代价是错杀一只昂贵的动物,一个代价是继续喂养,很明显这两个代价是不一样的.

机器学习中分类与聚类的本质区别

机器学习中分类与聚类的本质区别 机器学习中有两类的大问题,一个是分类,一个是聚类. 在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别. 分类 分类有如下几种说法,但表达的意思是相同的. 分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中. 分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它

0、机器学习算法分类

1.机器学习算法分类: 监督学习监督学习的训练数据包含了类别信息,在监督学习中,典型的问题是分类(Classification)和回归(Regression),典型的算法有Logistics Regression .BP神经网络算法和相性回归算法. 监督学习流程: 无监督学习 与监督学习不同的是,无监督学习(Unsupervised Learning)的训练数据中不包含任何类别信息.在无监督学习中,其典型的问题为聚类(Clustering)问题,代表的算法有K-Means算法.DBSCAN算法等

机器学习基础 | 分类模型评估指标

目录 成对指标 综合指标 图形指标 在处理机器学习的分类问题中,我们需要评估分类结果的好坏以选择或者优化模型,本文总结二分类任务中常用的评估指标.对于多分类任务的评估指标,可以参考这篇文章 先从我们最熟知的混淆矩阵(confusion matrix)说起. source 鉴于混淆矩阵看着比较抽象,可以参考下图 常用的评估指标可以分为3类: 成对指标,包括正确率(精度)&错误率,Precision&Reall,TPR(Sentitivity)&TNR(Specificity)等; 综

机器学习算法分类

转自@王萌,有少许修改. 机器学习起源于人工智能,可以赋予计算机以传统编程所无法实现的能力,比如飞行器的自动驾驶.人脸识别.计算机视觉和数据挖掘等. 机器学习的算法很多.很多时候困惑人们的是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的.这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性. 学习方式 将算法按照学习方式分类可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果. 监督学习  在监督学习中,输入数据被称为"训

机器学习之分类问题实战(基于UCI Bank Marketing Dataset)

导读: 分类问题是机器学习应用中的常见问题,而二分类问题是其中的典型,例如垃圾邮件的识别.本文基于UCI机器学习数据库中的银行营销数据集,从对数据集进行探索,数据预处理和特征工程,到学习模型的评估与选择,较为完整的展示了解决分类问题的大致流程.文中包含了一些常见问题的处理方式,例如缺失值的处理.非数值属性如何编码.如何使用过抽样和欠抽样的方法解决分类问题中正负样本不均衡的问题等等. 作者:llhthinker 欢迎转载,请保留原文链接:http://www.cnblogs.com/llhthin

机器学习算法分类及其评估指标

机器学习的入门,我们需要的一些基本概念: 机器学习的定义 M.Mitchell<机器学习>中的定义是: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序从经验E中学习. 算法分类 两张图片很好的总结了(机器学习)的算法分类: 评估指标 分类(Classification)算法指标: Accuracy准确率 Precision精确率 Recall召回率 F1 score 对于分类问题的结果可以用下表表示(说明:True或者False

【简单认识】机器学习常见分类算法——朴素贝叶斯

贝叶斯在1763年,<机会学说中一个问题的解>中提出了贝叶斯定理. 生活中不乏分类,比如我们经常通过一些人的衣着,来下意识的区别某些人是杀马特亦或是文艺青年.我们是如何做出这些判断或者说是分类的呢?这些判断大多来自我们的“经验之谈”,即,我们首先脑海中会先存有“某类人通常会如何着装打扮”的概念,然后当遇到这类显著特征之后,便会下意识的对其进行分类. 那么如何让机器进行这种类似的判断区分呢? 朴素贝叶斯分类法是一种相对简单易理解的机器分类方法.它的思想是首先对一些已知分类的样本进行采样(机器学习

机器学习--模型分类--贝叶斯

朴素贝叶斯的“朴素”,并不是简单的意思,而是指样本的特征之间是相互独立的.在所有的机器学习分类算法中, 朴素贝叶斯和其他绝大部分分类算法都不同,其他分类算法基本都是判别方法,即直接学习出特征输出Y和特征向 量X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X),但是朴素贝叶斯却是生成方法,也就是直接找 出特征输出Y和特征向量X之间的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出.朴素贝叶斯的优点在于:1,有稳定的分类效率,2,对小规模数据表现很好,能处理多分

[Python机器学习]鸢尾花分类 机器学习应用

1.问题简述 假设有一名植物学爱好者对她发现的鸢尾花的品种很感兴趣.她收集了每朵鸢尾花的一些测量数据: 花瓣的长度和宽度以及花萼的长度和宽度,所有测量结果的单位都是厘米. 她还有一些鸢尾花的测量数据,这些花之前已经被植物学专家鉴定为属于 setosa.versicolor 或 virginica 三个品种之一.对于这些测量数据,她可以确定每朵鸢尾花所属的品种. 我们假设这位植物学爱好者在野外只会遇到这三种鸢尾花.我们的目标是构建一个机器学习模型,可以从这些已知品种的鸢尾花测量数据中进行学习,从而