机器学习入门

来源:互联网 发布:株洲县网络传销案 编辑:程序博客网 时间:2024/06/04 18:27
感觉写的不错!!




机器学习问题常用技术:


        决策树


        神经网络


        支持向量机


        贝叶斯分类


        序列分析 聚类 分类


        最近邻,k近邻,改进近邻


目前有多种比较成熟的算法,如贝叶斯分类、近邻法、决策树、神经网络、支撑向量机等。其中贝叶斯算法被认为是效果良好的算法并被诸多学者所使用。






应用驱动的机器学习方法


1、流形机器学习:稀疏数据的非线性方法 (特征抽取)。


2、增强学习:对变化环境适应(机器人)。


3、多实例学习:半监督学习(药物设计)。


4、ranking学习:需求是事物排序的学习(搜索引擎)。


5、数据流学习:大量数据快速过滤(有害信息过滤)。


有监督方法:


                 线性学习机LLM


                 K最近邻法KFA


                 SIMCA法


  无监督方法:


                  因子分析FA


                  主成分分析PCA


                   独立成分分析ICA


                   非线性成分分析 NLCA


                    聚类分析clustering  


   半监督学习:


                    EM


                     tsvm 


                    Co-training


                    Self-training    


                    Graph-based               






1989年,Carbonell指出机器学习有4个研究方向:连接机器学习、基于符号的归纳机器学习、遗传机器学习与分析机器学习.十年过去了,1997年,Dietterich提出了另外4个新的研究方向:分类器的集成(Ensembles of classifiers)、海量数据的有教师学习算法(Methods for scaling up supervised learning algorithm)、增强机器学习(Reinforcement learn—ing)与学习复杂统计模型(Learning complex stochastic models)[5].在理论上,我们可以将其进一步归纳为三类不同的学习理论: 统计机器学习理论,海量数据的符号机器学习理论、基于适应性的机器学习理论。


将讨论聚焦在当前的热点问题上,由此,我们将主要讨论下述四类机器学习的问题:(1)统计机器学习理论,(2)集成机器学习方法,(3)基于符号的归纳机器学习理论,(4)增强机器学习理论。(在理论上,集成机器学习方法可以归入统计机器学习理论,但是,在技术上,这种方法具有重要的价值,因此本文中,我们将其作为一种独立的机器学习类型进行讨论)


特征的提取是分类系统中最关键的部分之一.特征提取的好坏.直接关系到分类的性能


基于判别熵最小化的特征提取。


机器学习算法的重要理论基础是经典的统计学,它的主要研究内容是样本数目趋于无穷大时的渐进理论。基于VC理论的创造性机器学习方法SVM(Support Vector Machine如果研究者忘记SVM所基于的统计基础,就与Vapnik的本意相悖了


20世纪90年代中期,Vapnik和他领导的AT&T Bell实验室小组提出了基于统计学习理论、核函数映射理论的支持向量机(support vector machine,SVM)学习算法 ],这是一种典型的小样本机器学习算法,它一经提出便以其卓越的理论性能、良好的泛化性能引起了机器学习领域研究者的广泛关注。当前,SVM在高光谱遥感影像解译、模式分类 等领域都得到了十分成功的应用,它已经成为研究者用于解决小样本学习问题的一种重要手段。 
原创粉丝点击