决策树sama

来源：互联网发布：全球人工智能产业规模编辑：程序博客网时间：2024/04/30 13:38

o(*≥▽≤)ツ信息增益：特征A对训练数据集D的信息增益 g(D,A)，定义为集合D的经验熵 H(D) 与特征A给定条件下D的经验条件熵 H(D|A) 之差，即

g(D,A) = H(D) - H(D|A)

换句话说，就是由于特征A而使得对数据集D的分类的不确定性减少的程度。

不同的特征拥有不同的信息增益，信息增益大的特征具有更强的分类能力。

o(*≥▽≤)ツ信息增益比：归一化后的信息增益，是特征选择的另一准则。

特征A对训练数据集D的信息增益比 g‘(D,A) 定义为其信息增益 g(D,A) 与训练数据集D的经验熵 H(D) 之比：

g‘(D,A) = g(D,A) / H(D)

o(*≥▽≤)ツ决策树的生成：^_^ ID3算法：在决策树各个节点上应用信息增益准侧选择特征，递归地构建决策树。

^_^ C4.5算法：用信息增益比来选择特征。

o(*≥▽≤)ツ决策树的剪枝：如果减掉该枝的损失函数比原来不剪小，那么就剪掉它，哼( －з)

0 0