机器学习导论

来源：互联网发布：js bind 编辑：程序博客网时间：2024/05/22 13:26

数据挖掘

简而言之，数据挖掘（Data Mining）是有组织有目的地收集数据，通过分析数据使之成为信息，从而在大量数据中寻找潜在规律以形成规则或知识的技术。

数据挖掘与机器学习的关系

机器学习可以用来作为数据挖掘的一种工具或手段；
数据挖掘的手段不限于机器学习，譬如还有诸如统计学等众多方法；
但机器学习的应用也远不止数据挖掘，其应用领域非常广泛，譬如人工智能；

机器学习

定义

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。目前，世界上共有几百种不同的机器学习算法。

机器学习算法类别

分类与聚类

Classification (分类)
给定一堆样本数据，以及这些数据所属的类别标签，通过算法来对预测新数据的类别

Clustering(聚类)：
事先并不知道一堆数据可以被划分到哪些类，通过算法来发现数据之间的相似性，从而将相似的数据划入相应的类，简单地说就是把相似的东西分到一组

常见的分类与聚类算法

常用的分类算法：决策树分类法，朴素贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM) 的分类器，神经网络法，k-最近邻法(k-nearest neighbor，kNN)，模糊分类法等等。

常见聚类算法： K均值(K-means clustering)聚类算法、K-MEDOIDS算法、CLARANS算法；BIRCH算法、CURE算法、CHAMELEON算法等；基于密度的方法：DBSCAN算法、OPTICS算法、DENCLUE算法等；基于网格的方法：STING算法、CLIQUE算法、WAVE-CLUSTER算法；

监督学习与无监督学习

机器学习按照训练数据是否有“先验知识”，一般划分为三类：

1)监督学习(supervised learning):
于一个 classifier ，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做 supervised learning (监督学习)

2)半监督学习(semi-supervised learning)

3)无监督学习(unsupervised learning):
聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，这在 Machine Learning 中被称作 unsupervised learning (无监督学习).

监督式学习技术需要关于结果的先验知识
例如，如果我们正在研究一个市场活动的历史数据，我们可以根据市场是否产生预期的反应来对数据进行分类，或决定下一步要花多少钱。监督式学习技术为预测和分类提供了强大的工具。

无监督学习技术不需要先验知识。
例如，在某些欺诈的案例中，只有当事情发生很久以后，我们才可能知道某次交易是不是欺诈。在这种情况下，与其试图预测哪些交易是欺诈，我们不如使用机器学习来识别那些可疑的交易，并做出标记，以备后续观察。我们对某种特定的结果缺乏先验知识、但仍希望从数据中汲取有用的洞察时，就要用到无监督式学习。

机器学习的应用步骤

1)需求分析
2)收集数据
3)探索数据特性
4)提取数据特征并建模[这一部分需要工具的娴熟和丰富的经验，一定的抽象能力和对数据的敏感]
5)开发代码
6)训练模型[这一部分需要熟练的开发能力]
7)应用系统集成（比如将训练好的算法模型集成到推荐系统中）

阅读全文

0 0