我们以是否买房为例子给大家介绍一下决策树算法的使用,数据集如下(仅做演示,不代表真实情况)
地段 |
近地铁 |
面积 |
单价(万) |
是否购买 |
三环 |
是 |
60 |
8 |
是 |
三环 |
是 |
80 |
8 |
否 |
三环 |
否 |
60 |
7 |
是 |
三环 |
否 |
80 |
7 |
否 |
五环 |
是 |
60 |
7 |
是 |
五环 |
是 |
80 |
7 |
否 |
五环 |
否 |
60 |
6 |
是 |
五环 |
否 |
80 |
6 |
是 |
六环 |
是 |
60 |
6 |
是 |
六环 |
是 |
80 |
5.5 |
是 |
六环 |
否 |
60 |
5 |
否 |
六环 |
否 |
80 |
5 |
否 |
从上表中我们可以看到,确定可以购买的数量有7个,不购买的数量有5个,共数是12个。按信息熵的计算公式我们可以得出此数据集的信息熵为:
按地段(用A1表示)划分,三环(D1),五环(D2),六环(D3),来计算信息增益
按是否近地铁(用A2表示)划分,是(D1),否(D2), 来计算信息增益
按面积(用A3表示)划分,60平(D1),80平(D2), 来计算信息增益
按单价划分(用A4表示),5w(D1), 5.5w(D2), 6w(D3), 7w(D4), 8w(D5) , 来计算信息增益
通过以上结果我们可以知道,对于信息熵的降低量(就是说人们决定是否买房的决定因素的权重)由高到低分别为:单价、面积、地段、是否近地铁。
以上算法就是决策树算法中ID3算法所采用的逻辑。
注:数量仅作为演示用的测试数据,不代表真实决策依据。
关注微信公众号“挨踢学霸”,获取更多人工智能技术文章
原文地址:http://blog.51cto.com/12482328/2111065
时间: 2024-10-12 20:52:02