机器学习_02_决策树

决策树也是一种基础的机器学习模型

比如预测今天小明是否出去打球, 那么我们知道一些特征, 通过对特征的划分,我们可以做出一颗树, 就是决策树, 其实决策树在管理学也用的很多, 主要是对每种情况给出一个概率,然后判断情况的优劣, 这样我们可以通过这棵树来判断当前的情况

如何判断哪个特征进行划分呢, 我们用熵来划分,通过信息增益我们可以选出最优的特征来进行划分.
熵是不确定性的度量, 熵越大, 不确定性越大, 否则越小
ID3算法

对当前的样本集合, 计算所有的信息增益
选择信息增益最大的属性作为测试属性
不断地往下分, 知道到达算法停止条件

避免过拟合
没必要分裂的不要分裂
剪枝
不是对信息增益求差值, 而是求比例大小
其他解决过拟合的算法
决策树的优劣
决策树的集成算法
主要有三种
一种是Bagging , 对样本进行选择 , 构建不同的投票箱, 然后进行判断

第二种是 Random Forest, 先对样本进行选择, 然后再随机挑选特征进行选择

第三种是 Boosting , 通过对样本进行更新, 然后在投票
Boost 算法
AdaBoost
GBDT
XGBoost

原文地址：https://www.cnblogs.com/jly1/p/12146956.html

时间： 2024-07-30 12:08:04

机器学习_02_决策树的相关文章

[转载]简单易学的机器学习算法-决策树之ID3算的

一.决策树分类算法概述决策树算法是从数据的属性(或者特征)出发,以属性作为基础,划分不同的类.例如对于如下数据集 (数据集) 其中,第一列和第二列为属性(特征),最后一列为类别标签,1表示是,0表示否.决策树算法的思想是基于属性对数据分类,对于以上的数据我们可以得到以下的决策树模型 (决策树模型) 先是根据第一个属性将一部份数据区分开,再根据第二个属性将剩余的区分开. 实现决策树的算法有很多种,有ID3.C4.5和CART等算法.下面我们介绍ID3算法. 二.ID3算法的概述 ID3算法是由Q

【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型

[火炉炼AI]机器学习006-用决策树回归器构建房价评估模型 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 最近几十年,房价一直是中国老百姓心中永远的痛,有人说,中国房价就像女人的无肩带文胸,一半人在疑惑:是什么支撑了它?另一半人在等待:什么时候掉下去? 而女人,永不可能让它掉下来.就算快掉下来了,提一提还是又上去了..... 虽然我们不能预测中国房价什么时候崩盘,但是却可以用机器学

[机器学习&数据挖掘]机器学习实战决策树plotTree函数完全解析

在看机器学习实战时候,到第三章的对决策树画图的时候,有一段递归函数怎么都看不懂,因为以后想选这个方向为自己的职业导向,抱着精看的态度,对这本树进行地毯式扫描,所以就没跳过,一直卡了一天多,才差不多搞懂,才对那个函数中的plotTree.xOff的取值,以及计算cntrPt的方法搞懂,相信也有人和我一样,希望能够相互交流. 先把代码贴在这里: import matplotlib.pyplot as plt #这里是对绘制是图形属性的一些定义,可以不用管,主要是后面的算法 decisionNode

机器学习二 -- 决策树学习

决策树学习从今天开始,坚持每天学习一个机器学习的新知识,加油! 决策树学习是应用最广的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一颗决策树. 决策树表示法决策树通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类.树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后继分支对应于该属性的一个可能值.分类实例的方法是从这棵树的根节点开始,册数这个结点指定的属性,然后按照给定实例的该属性对应的树枝向下移动,然后这个过程再以

机器学习---算法---决策树

转自:https://blog.csdn.net/qq_43208303/article/details/84837412 决策树是一种机器学习的方法.决策树的生成算法有ID3, C4.5和CART等.决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果.决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Learning),监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已

机器学习之决策树（一）

1.算法介绍决策树是一种基本的分类和回归方法,决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程.决策树学习通常包括三个步骤:特征选择.决策树的生成和决策树的修剪.决策树的本质是从训练数据集中归纳出一组分类规则.本文主要是对决策树的ID3算法的介绍,后文会介绍C4.5和CART算法. 2.算法优缺点优点:计算复杂度不高,结果易于理解,对于中间值的缺失不敏感,可以处理不相关特征.缺点:可能会产生过拟合问题.适用于标称型(ID3和C4.5)和数值型(CART算法) 3.特征选择熵:

机器学习笔记-决策树

决策树(Decision Tree) 决策树学习,建立一颗树结构的模型.此模型由一系列逻辑决策构成.在此结构中决策点代表某个属性上的决策,分支表示决策选择项,树的叶子节点是一系列联合决策的结论. 决策树通过分而治之(Divide and conquer)方式-递归划分(recurisive partitioning)来建立.在这个建立过程中,我们从代表所有数据的根节点出发,选择通向目标分类的特性把样本拆分成不同的组,如此直至触及停止标准.有几类停止标准, 节点上的所有或几乎所有的样本都是属于同一

机器学习技法-决策树和CART分类回归树构建算法

课程地址:https://class.coursera.org/ntumltwo-002/lecture 重要!重要!重要~ 一.决策树(Decision Tree).口袋(Bagging),自适应增强(AdaBoost) Bagging和AdaBoost算法再分类的时候,是让所有的弱分类器同时发挥作用.它们之间的区别每个弱分离器是否对后来的blending生成G有相同的权重. Decision Tree是一种有条件的融合算法,每次只能根据条件让某个分类器发挥作用. 二.基本决策树算法 1.用递

机器学习实战——决策树

from math import log #以决策为标准计算信息熵 def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for featVec in dataSet: currentLabel = featVec[-1] if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0 labelCounts[currentL