复习机器学习算法:决策树

决策树就是不断选择信息增益最大的属性,进行分类。

核心部分是使用信息增益判断属性的分类性能。信息增益计算如下:

信息熵:

允许有多个类别。

计算所有属性的信息增益,选择最大的作为决策树的根节点。然后,样本分枝,继续判断剩余的属性的信息增益。

信息增益有缺点:信息增益偏袒具有较多值的属性。分裂信息,用增益比率作为衡量标准,如下:

决策树的优点:对于有缺省特征的样本,也能够分类;允许样本特征有一定的错误,鲁棒性好。

缺点:容易过拟合,生成的树太大。(可以使用提前停止树的生长;剪枝;随机森林等方法避免过拟合)

剪枝的方法:先让决策树自由的生长,允许发生过拟合。然后把决策树转换为等价的规则集合,删除那些不对结果有影响的节点。如下:

重复上面的过程,从底向上,遍历节点。

参考:

《机器学习》

http://blog.sina.com.cn/s/blog_4e4dec6c0101fdz6.html

http://www.cnblogs.com/tornadomeet/p/3395593.html

时间: 2024-07-31 03:25:52

复习机器学习算法:决策树的相关文章

[转载]简单易学的机器学习算法-决策树之ID3算的

一.决策树分类算法概述 决策树算法是从数据的属性(或者特征)出发,以属性作为基础,划分不同的类.例如对于如下数据集 (数据集) 其中,第一列和第二列为属性(特征),最后一列为类别标签,1表示是,0表示否.决策树算法的思想是基于属性对数据分类,对于以上的数据我们可以得到以下的决策树模型 (决策树模型) 先是根据第一个属性将一部份数据区分开,再根据第二个属性将剩余的区分开. 实现决策树的算法有很多种,有ID3.C4.5和CART等算法.下面我们介绍ID3算法. 二.ID3算法的概述 ID3算法是由Q

机器学习---算法---决策树

转自:https://blog.csdn.net/qq_43208303/article/details/84837412 决策树是一种机器学习的方法.决策树的生成算法有ID3, C4.5和CART等.决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果.决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Learning),监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已

复习机器学习算法:贝叶斯分类器

朴素贝叶斯算法是寻找一个极大后验假设(MAP),即候选假设的最大后验概率. 如下: 在朴素贝叶斯分类器中,假设样本特征之间是独立的,则有: 计算每个假设的后验概率,选出最大的概率,对应的类别就是样本的分类结果. 优缺点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练.当时,需要样本的特征之间独立性较高,不能有太多的相关性.对输入数据的表达形式很敏感. 还有,当样本中某个特征在该类别中出现次数为0,即P(ai |vj)=0, 导致上式的分子全部为0. 这个时候需要使用m-估计和贝叶斯结合

复习机器学习算法:Logistic 回归

区别于线性回归,不是把每个特征直接乘以系数,而是用一个S型函数(Logistic函数).如下: 使用这种形式函数的原因(概率.求导). 代价函数,也不是线性回归中的误差平方和,而是基于对数似然函数,如下: 单个样本的后验概率为:(y = 0, 1) 类似于二项分布的概率密度函数. 整个样本集的后验概率: 对数似然函数对于代价函数,如下: 梯度下降法求解,对上面的代价函数求导,如下: 误差乘以对应的属性值,再求和.形式和线性回归一致,解释了为何设计这样的S型函数和代价函数.这样的梯度下降法的计算量

复习机器学习算法:SVM

SVM的本质是寻找最大间隔的分割超平面. SVM的假设也是在样本的每个属性前面乘以一个系数,代价函数是基于LR演化而来的.LR中是S型函数的假设,SVM中是分段函数cost的形式,再包括正则项,最后SVM的代价函数为: 当C一般要设置地很大,这样子的SVM才能够找到最大间隔的超平面,thetaT*x>=1或者thetaT*x<=-1的时候,我们可以把第一项忽略.这样,转换之后的SVM的目标函数就是我们熟悉的: 我们构建拉格朗日函数: 分别对w和b求偏导,令偏导等于0,回代,可以得到w和b的最优

复习机器学习算法:Boosting

Boosting的思想是集成学习,把许多个弱分类器结合起来,构成一个强分类器. 首先输入原始的训练样本,得到一个弱分类器,可以知道它的正确率和错误率.计算该弱分类器的权重,如下: 然后提高错误分类样本的权重,让后面的分类器focus它们,调整样本的权重: 如果原本分类正确: 如果样本分类错误: 把新的样本输入到后面学习,重复这个过程,得到许多个弱分类器,及其分类器的权重. 注意,Boosting算法中有两个权重,一个是分类器的权重,一个是样本的权重. Boosting算法的优点:性能好,可以防止

复习机器学习算法:线性回归

Logistic回归用来分类,线性回归用来回归. 线性回归是把让样本的属性前面加系数,相加.代价函数是误差平方和形式.所以,在最小化代价函数的时候,可以直接求导,令导数等于0,如下: 也可以使用梯度下降法,学习的梯度和Logistic回归形式一样. 线性回归的优点:计算简单. 缺点:不好处理非线性数据.

简单易学的机器学习算法——AdaBoost

一.集成方法(Ensemble Method) 集成方法主要包括Bagging和Boosting两种方法,随机森林算法是基于Bagging思想的机器学习算法,在Bagging方法中,主要通过对训练数据集进行随机采样,以重新组合成不同的数据集,利用弱学习算法对不同的新数据集进行学习,得到一系列的预测结果,对这些预测结果做平均或者投票做出最终的预测.AdaBoost算法和GBDT(Gradient Boost Decision Tree,梯度提升决策树)算法是基于Boosting思想的机器学习算法.

机器学习算法之决策树

机器学习算法之决策树 什么是决策树 决策树(Decision Tree)是一种简单但是广泛使用的分类器.通过训练数据构建决策树,可以高效的对未知的数据进行分类.决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析:2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度. 决策树是一个树结构(可以是二叉树或者非二叉树),非叶节点表示一个特征属性上的测试,每个分支代表在某个值域上的输出,每个叶节点存放一个类别. 测试就是按照从根节点往下走,直到叶节点