weka决策树实验

来源：互联网发布：中国电子口岸数据深圳编辑：程序博客网时间：2024/05/16 07:37

首先举出打网球的例子。

数据集中包含14个样本，其中9个正样本（yes），5个负样本（no）。则这些元组的期望信息（即熵）为：

Info(D) = - 9/14 * log₂(9/14) - 5/14 * log₂(5/14) = 0.940

现在观察每个属性的期望信息需求。在属性Outlook中，对于sunny，正样本数为2，负样本数为3；对于overcast，正样本数为4，负样本数为0；对与rain，正样本数为3，负样本数为2。

按照Outlook划分样例得到的期望信息为：

5/14 * ( - 2/5log₂2/5 – 3/5log₂3/5) + 4/15 * ( - 4/4log₂4/4) + 5/14 * ( - 3/5log₂3/5 – 2/5log₂2/5)=0.694

即其信息增益为：

Gain(outlook) = 0.940 – 0.694 = 0.246

Gain(Temperature) = 0.029

Gain(Humidity) = 0.151

Gain(Wind) = 0.048

继续信息增益的计算，最终得到如下的决策树：