【读书笔记】机器学习实战-决策树(1)

简述算法

上一章的kNN更像是应用统计知识来进行科学的预测，它可以完成许多分类任务。但是最大的缺点就是无法给出数据的内在含义，而决策树算法数据形式非常便于理解。决策树的结果经常会应用到专家系统当中。

构建一棵决策树的流程：

检测数据集中每一个子祥的属性是否属于同一类
     if so return 类标签；
     else
         寻找划分数据集的最好特征
         划分数据集
         创建分支结点
            for 每个划分的子集
                调用createBranch并增加返回结果到分支结点中
         return 分支结点

决策树的一般流程

收集数据
准备数据：决策树算法只适用于标称型数据，数值数据必须离散化
分析数据：树构造完成之后检查是否符合预期
训练算法：构造树的数据结构
测试算法：计算错误率

信息增益

划分数据集前后信息发生的变化就是增益，活动的信息增益最高的特征就是最好的选择。换句话说，信息增益以及“熵”(entropy)就是决策树的属性选择函数。熵就是数据集中信息的无序性的体现，这和其他领域中熵的意义是一样的。

书里用到的熵的计算方法如下：

其中p(xi)是选择分类的概率

还有所有类别的信息期望值：

完成上述计算熵的代码如下：‘

def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) #log base 2
    return shannonEnt

划分数据集

划分数据集的关键在于寻找恰当的特征值来进行划分。我们需要尝试数据集中的每一个特征值的划分并且计算该划分的熵。通过比较得出最终的结果。

根据给定特征值划分数据集：

def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            #把特征值去除
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

依次计算数据集中去除某一特征值余下集合的熵，取得熵增最大值的特征值，就是划分数据集的特征值。

def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):        #iterate over all the features
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
        uniqueVals = set(featList)       #get a set of unique values
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        #calculate the info gain; ie reduction in entropy
        infoGain = baseEntropy - newEntropy
        #compare this to the best gain so far
        if (infoGain > bestInfoGain):
            #if better than current best, set to best
            bestInfoGain = infoGain
            bestFeature = i
     #returns an integer
    return bestFeature

递归构造决策树

结合书上的例子，我们可以非常直观的看到如何构建决策树。其实就是每一步不断应用上述方法划分数据集的过程。

递归终止的条件是：已经遍历完数据集中的所有属性或者每一个分支下的所有实例都具有相同的分类。

但是如果数据集中所有的属性都已经被划分过，仍然有某个分支下的实例不具有相同的分类怎么办呢？书上给出的方法是多数表决，也是非常合情合理的选择。

def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

这和之前kNN算法的投票部分非常相似。

接下来就是根据上述方法的创建决策树代码：

def createTree(dataSet,labels):
    classList = [example[-1] for example in dataSet]
    #当某一分支下所有数据的类型相同停止
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    #当数据集中所有属性已经被划分完毕时结束，这里将上述两种情况合二为一了，不管最后分支下的实例是不是都属于同一类，都进行投票。
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        #python中传入的参数为列表是使传入引用，所以这里复制一下
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

时间： 2024-11-13 16:55:50

【读书笔记】机器学习实战-决策树(1)的相关文章

[机器学习&数据挖掘]机器学习实战决策树plotTree函数完全解析

在看机器学习实战时候,到第三章的对决策树画图的时候,有一段递归函数怎么都看不懂,因为以后想选这个方向为自己的职业导向,抱着精看的态度,对这本树进行地毯式扫描,所以就没跳过,一直卡了一天多,才差不多搞懂,才对那个函数中的plotTree.xOff的取值,以及计算cntrPt的方法搞懂,相信也有人和我一样,希望能够相互交流. 先把代码贴在这里: import matplotlib.pyplot as plt #这里是对绘制是图形属性的一些定义,可以不用管,主要是后面的算法 decisionNode

数据挖掘与运营化实战读书笔记-机器学习案例技巧实战

机器学习实战——决策树

from math import log #以决策为标准计算信息熵 def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for featVec in dataSet: currentLabel = featVec[-1] if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0 labelCounts[currentL

[读书笔记]项目管理实战:Microsoft Project精髓与方法

<项目管理实战:Microsoft Project精髓与方法>是Bonnie Biafore 写的一本书.Bonnie Biafore 作为项目管理师(PMP),她有20余年为大中小型客户提供项目管理服务的实践经验:作为多产的作家,著有项目管理.投资.个人理财.Microsoft Project.QuickBooks等领域相关图书20余部,其NAIC Stock Selection Handbook(选股手册)荣获技术交流学会(STC)及APEX优秀出版物大奖.她还为微软项目管理软件用户协会(

机器学习实战-决策树(ID3)

//==================================================== 决策树的构造: 构造决策树时,需要解决的第一个问题是,当前数据集上那个特征在划分数据是起决定性作用.为了找到决定性特征,我们必须使用某种度量来评估每个特征.完成评估之后,找到决定性特征,使用该特征划分数据,原始的数据集就被划分为几个数据子集.这个子集会发布在第一个决策点的所有分支.如果某个分支下的数据属于同一类型,则当前已经准确划分数据分类.如果数据子集内的数据不属于同一类型,则需要重复

机器学习实战--决策树

决策树概述决策树利用分层的概念将一个复杂的决策问题分解为多个简单的判断问题,最后逐级得到最大支持度的决策结果. 决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据缺点:可能产生过度匹配问题适用数据类型:数值型和标称型决策树算法原理决策树概念比较简单,用一个男女相亲的例子来描述决策树原理如下: 示例:使用决策树实现分类器 1. 决策树的构造在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用. (1)信

机器学习实战—决策树（二）

#-*-coding:utf-8-*- import ch ch.set_ch() import matplotlib.pyplot as plt decisionNode = dict(boxstyle = "sawtooth",fc="0.8") leafNode = dict(boxstyle="round4",fc = "0.8") arrow_args = dict(arrowstyle = "<-&

[读书笔记]机器学习：实用案例解析（5）

第5章回归模型:预测网页访问量回归模型:用已知数据集预测另外一个数据集,已知数据集称为输入,也叫预测变量或特征,想要预测的数据称为输出.回归模型与分类模型的不同之处在于回归模型的输出是有意义的数值. 基准模型:用均值作为预测 #machine learing for heckers #chapter 5 library(ggplot2) ages <- read.csv('ML_for_Hackers/05-Regression/data/longevity.csv') #密度图 ggpl

[读书笔记]机器学习：实用案例解析（7）

第7章优化:密码破译优化简介:最优点(optimum),优化(optimization) 本章研究的问题:构建一个简单的密码破译系统,把解密一串密文当做一个优化问题. 优化方法:网格搜索(grid search),主要问题是1.步长的选择:2.维度灾难(Curse of Dimensionality):问题规模过大 optim函数:比网格搜索更快,可以通过已经计算出的信息推断出下一步的方向,同时对所有变量一起优化.(根据书中后文,可能的原理是根据导数得出下一步的进行方向,因为该函数对于不可