机器学习之决策树

决策树:从给定训练数据集学的一个模型用于对新示例进行分类。

我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”越高越好,这样避免多次无用的分类。

1.用信息熵度量样本集合纯度。

假定当前样本集合D中第k类样本所占的比例为pk(k = 1,2,.....,|y|),则D的信息熵定义为

Ent(D)= -∑pklog2pk

信息熵增益越大,则意味着使用该属性进行划分所获取的“纯度”提升越大。ID3(Iterative Dichotomiser)就是以信息增益为准则来选择属性划分的。

假如在决策中使用属性编号,则可以看出其分支数将达到最大,将远超出其他,但是缺乏泛化能力,无法对新样本进行有效的预测。

实际中在

时间: 2024-10-09 21:37:24

机器学习之决策树的相关文章

[转载]简单易学的机器学习算法-决策树之ID3算的

一.决策树分类算法概述 决策树算法是从数据的属性(或者特征)出发,以属性作为基础,划分不同的类.例如对于如下数据集 (数据集) 其中,第一列和第二列为属性(特征),最后一列为类别标签,1表示是,0表示否.决策树算法的思想是基于属性对数据分类,对于以上的数据我们可以得到以下的决策树模型 (决策树模型) 先是根据第一个属性将一部份数据区分开,再根据第二个属性将剩余的区分开. 实现决策树的算法有很多种,有ID3.C4.5和CART等算法.下面我们介绍ID3算法. 二.ID3算法的概述 ID3算法是由Q

【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型

[火炉炼AI]机器学习006-用决策树回归器构建房价评估模型 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 最近几十年,房价一直是中国老百姓心中永远的痛,有人说,中国房价就像女人的无肩带文胸,一半人在疑惑:是什么支撑了它?另一半人在等待:什么时候掉下去? 而女人,永不可能让它掉下来.就算快掉下来了,提一提还是又上去了..... 虽然我们不能预测中国房价什么时候崩盘,但是却可以用机器学

[机器学习&数据挖掘]机器学习实战决策树plotTree函数完全解析

在看机器学习实战时候,到第三章的对决策树画图的时候,有一段递归函数怎么都看不懂,因为以后想选这个方向为自己的职业导向,抱着精看的态度,对这本树进行地毯式扫描,所以就没跳过,一直卡了一天多,才差不多搞懂,才对那个函数中的plotTree.xOff的取值,以及计算cntrPt的方法搞懂,相信也有人和我一样,希望能够相互交流. 先把代码贴在这里: import matplotlib.pyplot as plt #这里是对绘制是图形属性的一些定义,可以不用管,主要是后面的算法 decisionNode

机器学习二 -- 决策树学习

决策树学习 从今天开始,坚持每天学习一个机器学习的新知识,加油! 决策树学习是应用最广的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一颗决策树. 决策树表示法 决策树通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类.树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后继分支对应于该属性的一个可能值.分类实例的方法是从这棵树的根节点开始,册数这个结点指定的属性,然后按照给定实例的该属性对应的树枝向下移动,然后这个过程再以

机器学习---算法---决策树

转自:https://blog.csdn.net/qq_43208303/article/details/84837412 决策树是一种机器学习的方法.决策树的生成算法有ID3, C4.5和CART等.决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果.决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Learning),监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已

机器学习之决策树(一)

1.算法介绍决策树是一种基本的分类和回归方法,决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程.决策树学习通常包括三个步骤:特征选择.决策树的生成和决策树的修剪.决策树的本质是从训练数据集中归纳出一组分类规则.本文主要是对决策树的ID3算法的介绍,后文会介绍C4.5和CART算法. 2.算法优缺点优点:计算复杂度不高,结果易于理解,对于中间值的缺失不敏感,可以处理不相关特征.缺点:可能会产生过拟合问题.适用于标称型(ID3和C4.5)和数值型(CART算法) 3.特征选择熵:

机器学习_02_决策树

决策树也是一种基础的机器学习模型 比如预测今天小明是否出去打球, 那么我们知道一些特征, 通过对特征的划分,我们可以做出一颗树, 就是决策树, 其实决策树在管理学也用的很多, 主要是对每种情况给出一个概率,然后判断情况的优劣, 这样我们可以通过这棵树来判断当前的情况 如何判断哪个特征进行划分呢, 我们用熵来划分,通过信息增益我们可以选出最优的特征来进行划分. 熵是不确定性的度量, 熵越大, 不确定性越大, 否则越小 ID3算法 对当前的样本集合, 计算所有的信息增益 选择信息增益最大的属性作为测

机器学习笔记-决策树

决策树(Decision Tree) 决策树学习,建立一颗树结构的模型.此模型由一系列逻辑决策构成.在此结构中决策点代表某个属性上的决策,分支表示决策选择项,树的叶子节点是一系列联合决策的结论. 决策树通过分而治之(Divide and conquer)方式-递归划分(recurisive partitioning)来建立.在这个建立过程中,我们从代表所有数据的根节点出发,选择通向目标分类的特性把样本拆分成不同的组,如此直至触及停止标准.有几类停止标准, 节点上的所有或几乎所有的样本都是属于同一

机器学习技法-决策树和CART分类回归树构建算法

课程地址:https://class.coursera.org/ntumltwo-002/lecture 重要!重要!重要~ 一.决策树(Decision Tree).口袋(Bagging),自适应增强(AdaBoost) Bagging和AdaBoost算法再分类的时候,是让所有的弱分类器同时发挥作用.它们之间的区别每个弱分离器是否对后来的blending生成G有相同的权重. Decision Tree是一种有条件的融合算法,每次只能根据条件让某个分类器发挥作用. 二.基本决策树算法 1.用递

机器学习实战——决策树

from math import log #以决策为标准计算信息熵 def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for featVec in dataSet: currentLabel = featVec[-1] if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0 labelCounts[currentL