《machine learning in active》阅读笔记（1）

来源：互联网发布：淘宝客优惠链接转换编辑：程序博客网时间：2024/06/14 04:43

当前机器学习领域应用的最多的十大算法包括：

4.5决策树；K均值；支持向量机（SVM）；Apriori算法；最大期望值算法（EM）Expectation Maximization；pagerank算法；adaboost算法；KNN算法；Naïve Bayes朴素贝叶斯算法；分类决策树算法（CART）。

机器学习应用的构建步骤：

1，资料搜集。写网络爬虫爬取数据，或者通过API得到数据，传感器测量数据，或者各大公开的数据。

2，数据预处理。通过将数据转换成相应的格式，使之能作为输入数据使用。本书使用的数据是Python 列表类型。

3，输入数据的分析。对数据有一个初步的认识：例如维度划分，数据完整性检查，噪点滤除等。

4，算法训练。机器学习实际进行的步骤，第四步和第五步是核心算法所在。我们通过给算法喂合适的数据，提取出知识和信息。将这部分知识储存成相应的格式，使我们更好的在接下来的步骤使用。

在非监督学习中，没有这一步，因为没有目标值，所有的都在第五步进行。

5，算法测试。将第4步部提取的知识作为输入。当我们对一个算法进行评估时，我们需要测试其到底表现有多好。在监督学习的过程中，有很多已有的值来对算法进行评估；在非监督分类时，需要其他的标准进行评估。如果对算法不满意，再回到第四步，改变一些参数，重新测试。有时数据的搜集和预处理也会发生问题，那就需要回到第一步。

6，构造一个真正的应用，完成机器学习工作，测试之前的工作是否正常进行。如果有新的数据需要学习，那么需要重复1-5步。

为何要用Python

首先matlab对数据的操作极为强大，但是其正版使用十分昂贵。

其次作为C++，java这些底层的语言虽然其运行速度快，可是我们常常要写很长的一段代码来完成一份简单的工作。

本文采用的是Python 语言及其内库numpy。

0 0

《machine learning in active》 阅读笔记（1）

《machine learning in active》阅读笔记（1）