【机器学习】从统计学角度看待机器学习

来源:互联网 发布:电磁场与微波技术知乎 编辑:程序博客网 时间:2024/05/22 03:41

  • 统计学习总览

        李航的《统计学习方法》绝对是干货十足的书,可惜实在是太干了,字字珠玑,几乎每段话都能当作笔记进行整理。读起来仿佛在吃加强版的压缩饼干,虽然能量十足但未免太难吃了。

        根据文中内容,现在的机器学习,狭义上就是指代统计机器学习

        统计学习是数据驱动,从数据中学习概率统计模型,然后利用模型对新数据进行分析和预测。

        

        统计学习关于数据的基本假设——同类数据具有一定的统计规律。以随机变量(组)描述数据特征,以概率分布描述数据的统计规律。

        统计学习的目的是——寻找什么样的模型,怎么学习这个模型,以及学习这个模型的效率。从而对数据进行分析和预测。

        统计学习基本步骤——数据假设、模型假设、策略选择、优化求解、选择模型、应用模型。

        数据——独立同分布。

        模型(参数空间、复杂度)——所有可能模型集合,假设空间(输入=>模型=>输出,一种映射,如条件概率或决策函数)。

        策略(损失函数、风险函数、经验函数)——确定模型选择的准则(最大似然,最小二乘拟合)。

        算法(优化问题)——实现策略的方法(直接求解,迭代求解,梯度下降)。

        输入实例=>特征向量、输入输出对=>样本。

        通过训练误差。测试误差来评估模型——欠拟合和过拟合,偏倚方差两难问题。

        通过正则化和交叉验证来选取模型。

        通过泛化误差上界来评定模型好坏。

        

====================================================================================

  • 统计学习

        统计学习定义:关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。

        机器学习:往往是指代统计机器学习。

        统计学习对象:数据驱动,并假设同类数据具有一定的统计规律性。

        统计学习目的:分析和预测数据。

        统计学习目标:学习什么样的模型,如何学习模型,并有效率的学习。

        统计学习的分类:监督学习、半监督学习、无监督学习、增强学习等。

统计学习数据表示:以变量或者变量组来表示。分为连续变量和离散变量。

        统计学习的方法步骤(监督学习为例):数据假设、模型假设、策略选择、优化求解、选择模型、应用模型

                1.有限训练数据集合,并假设数据独立同分布——数据

                2.确定假设空间,即可能的模型集合——模型。

                3.确定模型选择的准则——策略。

                4.实现求解模型的方法——算法。

                5.通过学习选择最优模型——选择。

                6.利用模型进行预测和分析——应用。

        统计学习的研究:包括统计学习方法、统计学习理论、统计学习应用。

                1.统计学习方法的研究——开发新的学习方法。

                2.统计学习理论的研究——学习方法的有效性和效率,以及基本理论问题。

                3.统计学习应用的研究——如何将统计方法应用到实际问题中去。

        统计学习的重要性:我们都懂得,混口饭吃嘛,装装牛X啥的。

====================================================================================

  • 监督学习

        监督学习内容:分类、回归、标注等。

        实例表示:通常以特征向量的形式表示,每一个特征是一个维度。

        监督学习基本假设:输入输出的随机变量X和Y遵循联合概率分布P(X,Y),并假设这个分布存在。并且数据由这个分布独立同分布产生。

        假设空间:

                1.概率模型——P(Y|X)。

                2.决策函数——f(X)。

        监督学习模型:

                1.概率模型——F通常是由一个参数向量决定的条件概率分布族。

                2.决策模型——F通常是由一个参数向量决定的函数族。

        监督学习策略:

                1.损失函数:0-1损失函数,平方损失函数,绝对损失函数,对数损失函数or对数似然损失函数。

                2.风险函数,期望损失:损失函数*联合概率的积分。

                3.经验风险:损失函数和/N。

                4.最小化:经验风险最小化,结构风险最小化。

        监督学习算法:

                优化问题:梯度下降,进化计算。

  • 模型评估和选择
        训练误差:训练数据平均损失。

        测试误差:测试数据平均损失。

        过拟合:

        正则化和交叉验证:简单交叉验证,S折交叉验证,留一交叉验证。

  • 模型分类
        生成模型:由数据学习联合分布概率P(X,Y),然后根据贝叶斯公式等求出条件概率P(Y|X)。

                朴素贝叶斯,隐马尔科夫模型

        判别模型:由数据直接学习决策函数或条件概率分布。

                k近邻法,感知机,决策树,逻辑斯蒂回归,最大熵模型,支持向量机,提升方法,条件随机场。

原创粉丝点击