machine Algorithm总结

来源:互联网 发布:对电影台词软件 编辑:程序博客网 时间:2024/06/05 04:01

构造决策树的思路如下;
(1)选择属性放在根结点,为每个可能的属性值产生一个分支
(2)将样本集划分为多个子集,每个子集对应一个分支
(3)在每个分支上递归重复这个过程,仅使用真正到达这个分支的样本
(4)如果在一个节点上所有样本拥有相同的类别,即停止该部分树的扩展
构造决策树的方法如下:ID3&C4.5&CART
构建决策树的算法所用的策略:ID3(information gain)、C4.5(Gain Ration)、CART(Gini Index)
构造决策树停止的时间如下:one:定义一个停止树进一步生长的条件;two:生成完全的树后再进行剪枝。

其中算法ID3根据信息增益多的属性进行划分数据集,选择好分裂属性后就开始进行构造决策树
信息量的计算公式:

I(x)=-log p(x)

信息熵的计算公式如下:

H(x)=求和从1到n(p(xi)I(xi))

KNN(K nearest Neighbor)k最近邻算法
其中K表示接近自己的k个样本
算法思路:
(1)计算已知类别数据集中每个点与当前点的距离
(2)选取与当前点距离最小的k个点
(3)统计前k个点中每个类别的样本出现的频率
(4)返回前k个点中出现频率最高的类别作为当前点的预测类别

0 0
原创粉丝点击