《机器学习实战》学习笔记(一)

来源:互联网 发布:2017中超球员数据 编辑:程序博客网 时间:2024/06/06 00:41

《机器学习实战》学习笔记(一)

数据挖掘十大算法2007.12-Journal of Knowledge and Information System

1. C4.5决策树

2. K-mean(k-均值)

3. 支持向量机(SVM

4. Apriori

5. 最大期望算法(EM

6. PageRank算法

7. AdaBoost算法

8. K-近邻算法(kNN

9. 朴素贝叶斯算法(NB

10. 分类回归树算法(CART

本书并未讲解EM算法和PageRank算法,原因:Google引入的PageRank算法在很多著作中均有充分的论述,这里不在累述;而最大期望算法(EM)涉及太多的数学知识,无法简化讲解。

 

本书的结构4大部分15章节+4个附录

Ⅰ 分类1-7章):

①介绍了机器学习的基础知识,如何使用机器学习算法进行分类;

介绍K-邻近算法;

③介绍决策树;

④使用概率分布算法进行分类以及朴素贝叶斯算法;

介绍Logistic回归算法,引入算法优化的主题,如何处理数据集合中的缺失值;

⑥支持向量机;

⑦AdaBoost集成方法。

Ⅱ 利用回归预测数值型数据(8-9章):

⑧讨论回归、去噪和局部加权线性回归,偏差方差折中问题;

讨论基于树的回归算法和分类回归树(CART)算法。

Ⅲ 无监督学习(10-12章):

⑩K-均值聚类算法;

用于关联分析的Apriori算法;

如何使用FP-Growth算法改进关联分析。

Ⅳ 其他工具(13-15章):

⑬⑭引用的数学工具用于消除数据噪声,分别时主成分分析和奇异值分解;

分布式计算的概念,MapReduce 架构。

 

PS:

代码下载网址:www.manning.com/MachineLearninginAction