DecisionTree

1.信息增益的定义,也就是互信息

2.信息增益的推导

由公式即可得到信息增益

信息增益存在偏向于选择取值较多的特征的问题,信息增益比可以对这一问题进行修正

3.信息增益比

4.基尼指数,基尼指数越大,样本集合的不确定性也就越大,与熵类似

5.ID3算法,使用信息增益作为特征选择准则,递归选择信息增益最大的特征,递归终止条件是信息增益小于某个阈值

6.C4.5算法,使用信息增益比作为选择标准

7.CART(分类与回归树) 回归树以平方误差最小化为准则选择特征,分类树使用基尼指数作为特征选择标准,选择基尼指数最小的作为特征。

7.决策树的剪枝,对付过拟合

损失函数,其中,<Tleaf>是叶子结点的个数

Nt是第t个叶子结点的样本点个数,H(t)为叶节点t的经验熵,或者是基尼指数

如果是经验熵,Ntk是节点t上属于第k类的样本的个数。

CART树的剪枝算法

第一步:剪枝系数的确定

第二步:剪枝算法

时间: 2024-10-08 05:03:40

DecisionTree的相关文章

Principle of DecisionTree Algorithm

Decision tree algorithm is a classic algorithm series in machine learning. It can be used as both a classification algorithm and a regression algorithm, and is also particularly suitable for integrated learning such as random forests. This article su

银行客户流失预测

针对银行客户流失预测,主要流程分为:特征预处理.特征选择,分类模型选择与训练.主要工作如下: 1:特征预处理与选择 对性别进行哑变量处理: 对是否有****信息将布尔值转换01表示: 画出年龄直方图可以看出大致呈正态分布,对年龄分段处理后缺失值采用插补方式: 资产当前总额=存储类资产当前总额=本币存储当前总金额   月日均余额=存储类资产月日均余额=本币存储月日均余额  分别删除其中两项: 针对*NUM,*DUR,*AMT,*BAL字段分别进行特征提取(SelectKBest)达到降维效果: 最

Spark学习笔记——手写数字识别

import org.apache.spark.ml.classification.RandomForestClassifier import org.apache.spark.ml.regression.RandomForestRegressor import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, NaiveBayes, SVMWithSGD} import org.apache.spark.ml

一条SQL搞定信息增益的计算

欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 周东谕,2011年加入腾讯,现任职于腾讯互娱运营部数据中心,主要从事游戏相关的数据分析和挖掘工作. 信息增益原理介绍 介绍信息增益之前,首先需要介绍一下熵的概念,这是一个物理学概念,表示"一个系统的混乱程度".系统的不确定性越高,熵就越大.假设集合中的变量X={x1,x2-xn},它对应在集合的概率分别是P={p1,p2-pn}.那么这个集合的熵表示为: 举一个的例子:对游戏活跃用户进行分层,分为

MLlib--GBDT算法

转载请标明出处http://www.cnblogs.com/haozhengfei/p/8b9cb1875288d9f6cfc2f5a9b2f10eac.html GBDT算法 江湖传言:GBDT算法堪称算法界的倚天剑屠龙刀 GBDT算法主要由三个部分组成: – Regression Decistion Tree(即 DT) 回归树 – Gradient Boosting(即GB) 迭代提升 – Shrinkage(渐变) 渐变 1.决策树 1.1决策树的分类 决策树 分类决策树 用于分类标签值

SLIQ/SPRINT

*/--> SLIQ/SPRINT Before SLIQ, most classification alogrithms have the problem that they do not scale. Because these alogrithms have the limit that the traning data should fit in memory. That's why SLIQ was raised. 1 Generic Decision-Tree Classificat

.NET平台机器学习

.NET平台机器学习资源汇总,有你想要的么? 接触机器学习1年多了,由于只会用C#堆代码,所以只关注.NET平台的资源,一边积累,一边收集,一边学习,所以在本站第101篇博客到来之际,分享给大家.部分用过的 ,会有稍微详细点的说明,其他没用过的,也是我关注的,说不定以后会用上.机器学习并不等于大数据或者数据挖掘,还有有些区别,有些东西可以用来处理大数据的问题或者数据挖掘的问题,他们之间也是有部分想通的,所以这些组件不仅仅可以用于机器学习,也可以用于数据挖掘相关的. 按照功能把资源分为3个部分,开

常用的机器学习知识(点)

常用的机器学习&数据挖掘知识(点) 声明:想做机器学习&数据挖掘的学弟学妹,可以看看,转载请说明出处... 常用的机器学习知识(点) Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming 二次规划), CP(Conditi

Spark机器学习(6):决策树算法

1. 决策树基本知识 决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变量的,回归树是处理连续变量. 样本一般都有很多个特征,有的特征对分类起很大的作用,有的特征对分类作用很小,甚至没有作用.如决定是否对一个人贷款是,这个人的信用记录.收入等就是主要的判断依据,而性别.婚姻状况等等就是次要的判断依据.决策树构建的过程,就是根据特征的决定性程度,先使用决定性程度高的特征分类,再使用决定性程度低的特征分类,这样构建出一棵倒立的树,就是我们需要的决策树模型,