机器学习的类型和一些概念

来源：互联网发布：arduino蓝牙发送数据编辑：程序博客网时间：2024/05/17 23:38

想到哪记到哪
第一章：
1. 机器学习类型：
1).监督学习
给定n组训练数据，每组数据包含输入X和输出(标签)y，监督学习的目的就是从训练数据中学习到一种X到y的映射模型，然后对新的输入进行预测。训练集的表示：D={(X(i),y(i))}(1<=i<=N),N为训练集的数量。
大名鼎鼎的svm，线性回归，决策树，神经网络。
应用有文档分类，垃圾邮件过滤，手写字符识别
2).非监督学习
给定数据只有输入，没有标签。D={X(i)}(1<=i<=N),N为训练集数量。通过学习发现训练集中的结构性信息，然后对新的输入进行预测。
k-means等聚类。
3).增强学习
对没有标记、但与一个奖赏或惩罚相关联的训练集进行学习，逐渐得到输入到输出的关系映射。
用的比较少，通过学习选择能达到其目标的最优动作(百科)，example：一个孩子如何学会走路
2. 基本概念
1). 参数模型parametric model，非参数模型nonparametric model
区别： parametric model固定数量的参数未知，可以通过学习来估计。可用有限个参数参数化，
如下边的线性分类器
nonparametric model 函数不明确。
K-nearest neighbors即非参数模型的一个例子。
2). 维数灾难
这是从网上找到的一个描述图片，网址是http://blog.csdn.net/zbc1090549839/article/details/38929215专门介绍维数灾难的” title=”” /> <br> 根据模式识别理论，低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分，但是如果直接采用这种技术在高维空间进行分类或回归，则存在确定非线性映射函数的形式和参数、特征空间维数等问题，而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。也即是维数越高，计算量越大。 <br>解决方法：采用核函数技术可以有效地解决“维数灾难”，如svm中用到的高斯核。 <br>3).线性回归 <br> <img src=
4).logistic 回归
这里写图片描述
其中线性回归和logistic回归的计算可以用梯度下降法求解。梯度下降法留待后续吧。
logistic回归可以用于病理研究，如胃癌(是，否)是因变量，年龄、习惯等是自变量，用logistic可以得到因素的权重。
5).过拟合
对分类来说，训练集的错误率为0，测试集的错误率很高，说明为了尽可能好的拟合训练数据，分类模型造的太精细了。
原因和解决方法留待后续
6).模型选择：无免费午餐定理
All models are wrong ， but some models are useful -George Box.
我的理解是没有一种模型是完全拟合给定的数据集的，但是找到一个最合适的就是好的。
2015.11.10 里边有些概念以后再更新。

0 0