机器学习入门

来源：互联网发布：株洲县网络传销案编辑：程序博客网时间：2024/06/04 18:27

感觉写的不错！！

机器学习问题常用技术：

决策树

神经网络

支持向量机

贝叶斯分类

序列分析聚类分类

最近邻，k近邻，改进近邻

目前有多种比较成熟的算法，如贝叶斯分类、近邻法、决策树、神经网络、支撑向量机等。其中贝叶斯算法被认为是效果良好的算法并被诸多学者所使用。

应用驱动的机器学习方法

1、流形机器学习：稀疏数据的非线性方法 (特征抽取)。

2、增强学习：对变化环境适应(机器人)。

3、多实例学习：半监督学习(药物设计)。

4、ranking学习：需求是事物排序的学习(搜索引擎)。

5、数据流学习：大量数据快速过滤(有害信息过滤)。

有监督方法：

线性学习机LLM

K最近邻法KFA

SIMCA法

无监督方法：

因子分析FA

主成分分析PCA

独立成分分析ICA

非线性成分分析 NLCA

聚类分析clustering

半监督学习：

EM

tsvm

Co-training

Self-training

Graph-based

1989年，Carbonell指出机器学习有4个研究方向：连接机器学习、基于符号的归纳机器学习、遗传机器学习与分析机器学习．十年过去了，1997年，Dietterich提出了另外4个新的研究方向：分类器的集成(Ensembles of classifiers)、海量数据的有教师学习算法(Methods for scaling up supervised learning algorithm)、增强机器学习(Reinforcement learn—ing)与学习复杂统计模型(Learning complex stochastic models)[5]．在理论上，我们可以将其进一步归纳为三类不同的学习理论：统计机器学习理论，海量数据的符号机器学习理论、基于适应性的机器学习理论。

将讨论聚焦在当前的热点问题上，由此，我们将主要讨论下述四类机器学习的问题：(1)统计机器学习理论，(2)集成机器学习方法，(3)基于符号的归纳机器学习理论，(4)增强机器学习理论。（在理论上，集成机器学习方法可以归入统计机器学习理论，但是，在技术上，这种方法具有重要的价值，因此本文中，我们将其作为一种独立的机器学习类型进行讨论）

特征的提取是分类系统中最关键的部分之一．特征提取的好坏．直接关系到分类的性能

基于判别熵最小化的特征提取。

机器学习算法的重要理论基础是经典的统计学，它的主要研究内容是样本数目趋于无穷大时的渐进理论。基于VC理论的创造性机器学习方法SVM(Support Vector Machine如果研究者忘记SVM所基于的统计基础，就与Vapnik的本意相悖了

20世纪90年代中期，Vapnik和他领导的AT&T Bell实验室小组提出了基于统计学习理论、核函数映射理论的支持向量机(support vector machine，SVM)学习算法 ]，这是一种典型的小样本机器学习算法，它一经提出便以其卓越的理论性能、良好的泛化性能引起了机器学习领域研究者的广泛关注。当前，SVM在高光谱遥感影像解译、模式分类等领域都得到了十分成功的应用，它已经成为研究者用于解决小样本学习问题的一种重要手段。