机器学习----学习笔记

来源:互联网 发布:熊族软件下载 编辑:程序博客网 时间:2024/05/16 05:27

机器学习

定义:所谓机器学习,就是在不针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。例如,对于一个计算机程序来说,给了它一个任务T和一个性能测试方法P,如果在经验E的影响下,P对于T的测量结果得到了改进,那么就说该程序从E中学习。

1.监督学习

定义:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
简单来说,就是给你一组包含标准答案的数据,需要计算机能够在这些数据中进行分析,从而能够根据你提出的新的问题来得出最接近标准答案的预测。
一些简单概念:

  • training set 训练集:包含标准答案的(x,y)的数据集合
  • features 特征值: x
  • target 目标值: y
  • hypothesis 假设模型:一般形式,y =h(x)
  • 特征的维数:训练集的条目

1.1回归问题

回归问题的目标是给定D维输入变量x,并且每一个输入矢量x都有对应的值y,要求对于新来的数据预测它对应的连续的目标值t。即当我们想要预测的变量对象——目标值是连续的时候,就属于回归问题。

1.2分类问题

与回归问题的区别是,目标值t可能不是连续的,而是离散的。

1.3回归与分类的区别

特性 回归 分类 输出类型 离散数据 连续数据 目的 寻找决策边界 找到最优拟合 评价方法 精度(accuragy),混淆矩阵等 SSE(sum of square errors)或拟合优度等

定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。
举个例子:
预测明天的气温是多少度,这是一个回归任务;
预测明天是阴、晴还是雨,就是一个分类任务。

2.无监督学习

定义:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

2.1聚类问题

计算机会根据数据的相似度将数据集分为不同的类别,这个划分和监督学习的分类问题不同,原因数据没有所谓的标准答案的标签。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。

原创粉丝点击