《machine learning in active》 阅读笔记(1)

来源:互联网 发布:淘宝客优惠链接转换 编辑:程序博客网 时间:2024/06/14 04:43

 当前机器学习领域应用的最多的十大算法包括:

  4.5决策树;K均值;支持向量机(SVM);Apriori算法;最大期望值算法(EM)Expectation Maximization;pagerank算法;adaboost算法;KNN算法;Naïve Bayes朴素贝叶斯算法;  分类决策树算法(CART)。

机器学习应用的构建步骤:

1,资料搜集。写网络爬虫爬取数据,或者通过API得到数据,传感器测量数据,或者各大公开的数据。

2,数据预处理。通过将数据转换成相应的格式,使之能作为输入数据使用。本书使用的数据是Python 列表类型。

3,输入数据的分析。对数据有一个初步的认识:例如维度划分,数据完整性检查,噪点滤除等。

4,算法训练。机器学习实际进行的步骤,第四步和第五步是核心算法所在。我们通过给算法喂合适的数据,提取出知识和信息。将这部分知识储存成相应的格式,使我们更好的在接下来的步骤使用。 

       在非监督学习中,没有这一步,因为没有目标值,所有的都在第五步进行。

5,算法测试。将第4步部提取的知识作为输入。当我们对一个算法进行评估时,我们需要测试其到底表现有多好。在监督学习的过程中,有很多已有的值来对算法进行评估;在非监督分类时,需要其他的标准进行评估。如果对算法不满意,再回到第四步,改变一些参数,重新测试。有时数据的搜集和预处理也会发生问题,那就需要回到第一步。

6,  构造一个真正的应用,完成机器学习工作,测试之前的工作是否正常进行。如果有新的数据需要学习,那么需要重复1-5步。

为何要用Python

首先matlab对数据的操作极为强大,但是其正版使用十分昂贵。

其次作为C++,java这些底层的语言虽然其运行速度快,可是我们常常要写很长的一段代码来完成一份简单的工作。


本文采用的是Python 语言及其内库numpy。

0 0
原创粉丝点击