《机器学习实战》第3章 决策树 学习笔记

决策树从数据集合中提取出一系列的规则,这些规则可以用流程图表示,其数据形式非常容易理解;专家系统中就经常使用决策树。

1、决策树的构造:①采用ID3算法(最高信息增益)划分数据集;②递归创建决策树。

2、使用matplotlib的注解功能,可以将存储的树结构转化为容易理解的图形。

3、使用python的pickle模块可用于存储决策树的结构。

4、对于过度匹配的问题,可以通过裁剪树的手段来消除。

5、ID3算法适合处理标称型数据,如果是数值型数据,必须离散化。

6、还有其他的决策树算法,最流行的树C4.5和CART。无论是ID3还是C4.5最好在小数据集上使用,决策树分类一般只试用于小数据。当属性取值很多时最好选择C4.5算法,ID3得出的效果会非常差。

时间: 2024-10-05 11:53:39

《机器学习实战》第3章 决策树 学习笔记的相关文章

《机器学习》第三章 决策树学习 笔记加总结

<机器学习>第三章 决策树学习 决策树学习方法搜索一个完整表示的假设空间,从而避免了受限假设空间的不足.决策树学习的归纳偏置是优越选择较小的树. 3.1.简介 决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树. 决策树(Decision Tree)是一种简单但是广泛使用的分类器.通过训练数据构建决策树,可以高效的对未知的数据进行分类. 决策数有两大优点: 1)决策树模型可以读性好,具有描述性,有助于人工分析: 2)效率高,决策树只需要一次构建,反复使用,每一

《机器学习导论》第二章 监督学习 学习笔记

训练集上训练的模型在多大程度上能够对新的实例预测出正确输出称为泛化(generalization) 对最好的泛化来说,我们应当使假设的复杂性和潜在数据的函数的复杂性相匹配.如果假设没有函数复杂,例如,当试图用直线拟合从三次项式抽取的数据时,称为欠拟合(underfitting).在这种情况下,随着复杂性的增加,训练误差和确认误差都会降低,但是,如果我们假设太浮渣,数据不足以约束该假设,我们最后也许得不到好的假设.或者如果存在噪声,则过分书杂的假设可能不仅学习潜在的函数,而且也学习数据中的噪声导致

机器学习实战之一---简单讲解决策树

机器学习实战之一---简单讲解决策树 https://blog.csdn.net/class_brick/article/details/78855510 前言:本文基于<机器学习实战>一书,采用python语言,对于机器学习当中的常用算法进行说明. 一. 综述 定义:首先来对决策树进行一个定义,决策树是一棵通过事物的特征来进行判断分支后得到该事物所需要的预测的属性的树. 流程:提取特征à计算信息增益à构建决策树à使用决策树进行预测 关键:树的构造,通过信息增益(熵)得到分支点和分支的方式.

机器学习实战第8章预测数值型数据:回归

1.简单的线性回归 假定输入数据存放在矩阵X中,而回归系数存放在向量W中,则对于给定的数据X1,预测结果将会是 这里的向量都默认为列向量 现在的问题是手里有一些x和对应的y数据,怎样才能找到W呢?一个常用的方法是找到使误差最小的W,这里的误差是指预测y值与真实y值之间的差值,使用该误差的简单累加将使得正差值和负差值相互抵消,所以我们采用平方误差. 平方误差可以写做: 用矩阵表示可以写成 使用上式对w进行求导: 具体可参考https://blog.csdn.net/nomadlx53/articl

机器学习实战第7章——利用AdaBoost元算法提高分类性能

将不同的分类器组合起来,这种组合结果被称为集成方法或元算法(meta-algorithm). 使用集成方法时会有多种形式:(1)可以是不同算法的集成(2)可以是同一种算法在不同设置下的集成(3)数据集不同部分分配给不同分类器之后的集成,等等 接下来介绍基于同一种分类器多个不同实例的两种不同计算方法bagging和boosting 1. bagging 原理:从原始数据集选择S次后得到S个新数据集的一种技术.新数据集和原数据集的大小相等.每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而

邹欣老师的《构建之法》第一章“概论”学习笔记与自我随笔

刚读完了邹欣老师的<构建之法>第一章“概论”,四个字形容:酣畅淋漓. 概论将自己的一些模糊的认识清晰化,用准确的文字描述了出来,填补了脑海里的一些灰色地带. 总结一下:概论通俗地阐述了编程.软件.计算机科学.软件工程的联系与区别,简单说,编程是一项具体动作,软件是供人使用的产品,具体有很多种类型,而计算机科学是偏向理论研究,软件工程就像其他工程学一样,是在一定条件下合理配置资源达到生产软件的目的. 本人作为一名从小对编程.软件.计算机感兴趣的Nerd,虽然大学专业与此无关,但刚毕业时签了一份软

决策树学习笔记(Decision Tree)

什么是决策树? 决策树是一种基本的分类与回归方法.其主要有点事模型具有可得性,分类速度快.学习时,利用训练数据,根据损失函数最小化原则建立决策树模型:预测时,对新数据,利用决策树模型进行分类. 决策树学习通常包含以下三个步骤: 选择特征 决策树生成 剪枝 决策树的改进路线: ID3--->C4.5--->CART (1)其中ID3是基于信息增益来选择划分属性 (2)C4.5不直接使用增益率来选择划分属性,而是使用了一个启发式:先从候选划分属性中选取信息增益高于平局水平的属性,再从中选择增益率最

机器学习实战3:决策树学习笔记(python)

决策树就是在已知各种情况发生概率的情况下,通过构造决策树,评价项目风险,判断其可行性的决策分析方法,它是运用概率分析的一种图解法. 优缺点分析: 优点:计算复杂度不高,输出结果较直观,易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能产生过度匹配 创建数据集并计算其熵值: from math import log import operator def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0,

机器学习实战之第一章 机器学习基础

第1章 机器学习基础 机器学习 概述 机器学习就是把无序的数据转换成有用的信息. 获取海量的数据 从海量数据中获取有用的信息 我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义. 机器学习 场景 例如:识别动物猫 模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫. 机器学习(数据学习):人们通过阅读进行学习,观察它会叫.小眼睛.两只耳朵.四条腿.一条尾巴,得到结论,从而判断它就是猫. 深度学习(深入数据):人们通过深入了解它,发现它会'喵喵'的叫.与同类的猫科动物