weka决策树实验

来源:互联网 发布:中国电子口岸数据深圳 编辑:程序博客网 时间:2024/05/16 07:37

首先举出打网球的例子。

2

数据集中包含14个样本,其中9个正样本(yes),5个负样本(no)。则这些元组的期望信息(即熵)为:

Info(D) = - 9/14 * log2(9/14) - 5/14 * log2(5/14) = 0.940

现在观察每个属性的期望信息需求。在属性Outlook中,对于sunny,正样本数为2,负样本数为3;对于overcast,正样本数为4,负样本数为0;对与rain,正样本数为3,负样本数为2。

按照Outlook划分样例得到的期望信息为:

5/14 * ( - 2/5log22/5 – 3/5log23/5) + 4/15 * ( - 4/4log24/4) + 5/14 * ( - 3/5log23/5 – 2/5log22/5)=0.694

即其信息增益为:

Gain(outlook) = 0.940 – 0.694 = 0.246

Gain(Temperature) = 0.029

Gain(Humidity) = 0.151

Gain(Wind) = 0.048

3

继续信息增益的计算,最终得到如下的决策树:

1

原创粉丝点击