决策树---连续值处理

最近在复习机器学习的基本算法,再看周志华老师的《机器学习》决策树这一章时,发现,之前学习时都没决策树的连续值和缺失值处理。这两天看完了,这里记录一下

因为连续属性的可取值数目不再有限,因此不能像处理离散属性那样通过枚举离散属性取值来对结点进行划分。有点像处理连续信号那样,需要连续属性离散化,常用的离散化策略是二分法,这个技术也是C4.5中采用的策略。

下面以西瓜数据集的“密度”属性为例具体介绍下,如何采用二分法对连续属性离散化:

计算过程:

1.将根节点(要划分的节点)属性值(“密度”’)进行排序(由小到大)

2.计算划分点集合

3.计算划分点信息增益

具体过程如下:

1.对密度值进行划分

2.划分点集合:

3.计算划分点信息增益

以此类推,计算出该根节点所有划分点t的信息增益,选出最大的信息增益0.263,此时,划分点为t= 0.381,选择该划分点。同理,可计算出含糖率作为划分属性时的最大信息增益为0.349,只是,根节点还是以纹理属性作为划分属性,因为,之前计算过,各属性作为划分属性时的信息增益。

原文地址:https://www.cnblogs.com/Holly-blog/p/9353239.html

时间: 2024-10-13 19:48:59

决策树---连续值处理的相关文章

NKOI 2753 区间连续值

区间连续值 Time Limit:10000MS  Memory Limit:65536K Total Submit:58 Accepted:49 Case Time Limit:1000MS Description 有一数列只有0和1构成,数列中数字个数为为n. 现在有m个形式为x y的提问,询问区间[x,y]中,最多有多少个连续的1. 对于每个询问,请你快速做出回答 Input 第一行,两个整数n和m 第二行,n个空格间隔的数字,表示数列 接下来m行,每行两个空格间隔的整数x和y,表示一个询

决策树模型、本质、连续值

摘自<统计学习方法> 李航  第五章 决策树学习通常包括3个步骤:特征选择.决策树的生成.决策树的剪枝 决策树学习本质上是从训练集中归纳出一组分类规则. 决策树学习的损失函数通常是正则化的极大似然函数. 决策树的学习算法通常是采用启发式的方法,近似求解最优化问题 特征选择问题 特征选择在于选取对训练数据具有分类能力的特征.如果一个特征具有更好的分类能力,或者说,按照这一特征将训练数据集分割成子集, 使得各个子集在当前条件下有最好的分类,那么就更应该选择这个特征. 决策树的生成 ID3算法 ID

序列中连续值之间的差值列表

1 readings=[1,8,3,4,9,6,7] 2 current=readings[0] 3 defferences=[] 4 for next_item in readings[1:]:#注意next_item的值 5 defferences.append(next_item-current) 6 current=next_item 7 print(current) 8 9 for i in defferences: 10 print(i) 11 12 #辅助函数 13 def wit

acrgis 解决矢量转栅格分辨率过大造成连续值变离散且出现空白

目标:解决北京河流矢量polygon 转栅格的问题 设置栅格大小和影像一致30*30----结果发现,因为cell过大,原本连续的是矢量面变得不连续了,特别细的河流会出现间断(如下图所示): 1号 网上搜索矢量转栅格出现空白的问题大多是由于矢量拓扑关系有问题导致,所以需要拓扑检查等,但我这个是因为河流太细,算法可能缺少种子点了. 检验这个想法的方式:将cell设置成10*10,然后看有无间断----结果如下图果然很完美 2号 改进方法1:将cell大小为10的栅格数据--进行重采样为30大小的-

10.1 定位连续值的范围

drop view v;create table v (proj_id int(2),proj_start date,proj_end date); insert into v values(1,'2005-03-01','2005-03-02');insert into v values(2,'2005-03-02','2005-03-03');insert into v values(3,'2005-03-03','2005-03-04');insert into v values(4,'2

10.3 定位连续值范围的开始点和结束点

drop view v;create table v (proj_id int(2),proj_start date,proj_end date); insert into v values(1,'2005-03-01','2005-03-02');insert into v values(2,'2005-03-02','2005-03-03');insert into v values(3,'2005-03-03','2005-03-04');insert into v values(4,'2

机器学习部分题目

题目1:谈谈缺失值的处理: 答: 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类.分组.删失或截断.它指的是现有数据集中某个或某些属性的值是不完全的.缺失值的产生的原因多种多样,主要分为机械原因和人为原因. 下面简单讨论缺失值的一般处理方法:总体上来讲有删除法和插补法一.删除法(1)简单删除法:对有缺失值的条目直接删除:优点:简单,对不完整的条目占样本总体较小时效果很好:缺点:在不完整样本占样本总体比重较大时,丢失大量信息,影响后续处理(2)权重法:二.插补法(1)特殊值填充:将缺失值用特殊

决策树 随机森林 adaboost

? 熵.互信息? 决策树学习算法 ? 信息增益 ? ID3.C4.5.CART? Bagging与随机森林? 提升 ? Adaboost/GDBT ? 熵.互信息 熵是对平均不确定性的度量. 平均互信息:得知特征Y的信息而使得对标签X的信息的不确定性减少的程度.描述随机变量之间的相似程度.(条件熵.相对熵:差异性) ? 决策树 决策树学习采用的是自顶向下的递归方法,有监督学习. 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类. 建立

【Machine Learn】决策树案例:基于python的商品购买能力预测系统

决策树在商品购买能力预测案例中的算法实现 作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结合视频学习和书籍基础的笔记所得.本系列文章将采用理论结合实践方式编写.首先介绍机器学习和深度学习的范畴,然后介绍关于训练集.测试集等介绍.接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树.临近取样.支持向量机.神经网络算法)监督学习之回归(线性回归.非线性回归)非监督学习(