一:基础知识
1:个体信息量
-long2pi
2:平均信息量(熵)
Info(D)=-Σi=1...n(pilog2pi)
比如我们将一个立方体A抛向空中,记落地时着地的面为f1,f1的取值为{1,2,3,4,5,6},f1的熵entropy(f1)=-(1/6*log(1/6)+...+1/6*log(1/6))=-1*log(1/6)=2.58
3:假设我们选择属性R作为分裂属性,数据集D中,R有k个不同的取值{V1,V2,...,Vk},于是可将D根据R的值分成k组{D1,D2,...,Dk},按R进行分裂后,将数据集D不同的类分开还需要的信息量为:
InfoR(D)=Σi=1...k(Di/D)Info(Di)
4:信息增益:分裂前后,两个信息量只差:
Gain(R)=Info(D)-InfoR(D)
二:例子
记录ID | 年龄 | 收入层次 | 学生 | 信用等级 | 是否购买电脑 |
1 | 青少年 | 高 | 否 | 一般 | 否 |
2 | 青少年 | 高 | 否 | 良好 | 否 |
3 | 中年 | 高 | 否 | 一般 | 是 |
4 | 老年 | 中 | 否 | 一般 | 是 |
5 | 老年 | 低 | 是 | 一般 | 是 |
6 | 老年 | 低 | 是 | 良好 | 否 |
7 | 中年 | 低 | 是 | 良好 | 是 |
8 | 青少年 | 中 | 否 | 一般 | 否 |
9 | 青少年 | 低 | 是 | 一般 | 是 |
10 | 老年 | 中 | 是 | 一般 | 是 |
11 | 青少年 | 中 | 是 | 良好 | 是 |
12 | 中年 | 中 | 否 | 良好 | 是 |
13 | 中年 | 高 | 是 | 一般 | 是 |
14 | 老年 | 中 | 否 | 良好 | 否 |
1:计算Info(D)
Info(D)=-Σi=1...n(pilogpi)=-(5/14)log(5/14)-(9/14)log(9/14)=-0.3571*(-1.4856)-0.6429*(-0.6373)=0.1597+0.1234=0.5305+0.4097=0.9402
2:计算InfoR(D)
Info年龄(D)=(5/14)Info(D老年)+(4/14)Info(D中年)+(5/14)Info(D青少年)=(5/14)(-(3/5)log(3/5)-(2/5)log(2/5))+(4/14)(-(4/4)log(4/4)-(0/4)log(0/4))+(5/14)(-(2/5)log(2/5)-(3/5)log(3/5))
=(5/14)(0.6*0.737+0.4*1.3219)+(4/14)(0+0)+(5/14)(0.4*1.3219+0.6*0.737)
=(5/14)(0.4422+0.52876)+0+(5/14)(0.52876+0.4422)
=0.3571*0.97096+0+0.3571*0.97096
=0.694
同样可以计算出
Info收入层次(D)=0.911
Info学生(D)=0.789
Info信用等级(D)=0.892
3:计算信息增益:
Gain(年龄)=Info(D)-Info年龄(D)=0.940-0.694=0.246
Gain(收入层次)=Info(D)-Info收入层次(D)=0.940-0.911=0.029
Gain(学生)=Info(D)-Info学生(D)=0.940-0.789=0.151
Gain(信用等级)=Info(D)-Info信用等级(D)=0.940-0.892=0.058