统计学习基础(概念,基本思想,先验知识)

来源:互联网 发布:u盘启动ubuntu系统 编辑:程序博客网 时间:2024/06/13 19:56

本文主要是阅读李航《统计学习方法》一书第一章后的一些梳理,总结,同时也学习使用一下Markdown.


统计学习三要素

  • 模型(model):假设空间中的函数簇。概念有参数向量

  • 策略(strategy):评价模型好坏的标准。概念有损失函数,风险函数(期望损失),经验风险(ERM),结构风险(SRM),正则化(范数)。

  • 算法(algorithm):求解最优模型的算法。概念有优化算法(梯度下降,最小二乘法,全局最优)。

步骤:

训练数据集合——>假设空间选取——>损失函数确定——>求解模型的算法获取参数值——>最优模型获取——>预测或分析

模型

  • 生成模型:由数据学习联合概率分布然后求得条件概率分布P(X|Y)=P(X,Y)P(X)。例如朴素贝叶斯和隐马尔可夫。优点:收敛速度快,有隐变量时仍然可以。

  • 判别模型:直接由决策函数f(x)或条件概率P(X|Y)求得Y。例如KNN,SVM,决策树,logistic,最大熵,adoboost, CRF等。 优点:特征提取可以简化学习,准确率高。

有监督学习

  • 回归(regression):输入变量X和输出变量Y都是连续的。
    例如: 函数拟合,股票趋势预测,产品质量管理,
    常用模型: 逻辑斯蒂回归

  • 分类(classification):输入变量X可以为连续的也可以为离散的,但输出变量Y是离散的。
    例如: 文本分类,客户信用分类,图像识别,
    常用模型:SVM, 决策树,等等等

  • 标注(tagging):输入变量和输出变量均为序列的问题,即都为离散的,分类的一种情况。
    例如: 词性标注,信息抽取
    常用模型: 隐马尔可夫,条件随机场

需要复习点

  • 大数定律
  • 求偏导
  • 最小二乘法
  • 范数
  • 极大似然估计
  • 联合概率分布
  • 伯努利模型
0 0