机器学习（一）：简介

来源：互联网发布：网络分层结构怎么理解编辑：程序博客网时间：2024/05/16 04:04

什么是机器学习？一个不是很正式的回答是：不直接通过编程让计算机解决问题，而是试着让计算机自己找到解决方式。

（一）学习过程可以分为：数据输入，抽象化，一般化。

抽象化：由学习任务和所分析的数据类型来决定学习的模型，用这个模型来拟合数据集（称之为训练），然后数据就转换为一个汇总了原始信息的抽象形式。
一般化：把抽象知识转化为可以应用的行动。

（二） 机器学习应用于数据的步骤

1.收集数据
2.探索数据和准备数据
3.基于数据训练模型。
4.评价模型性能
5.改进模型

案例：分析事物最基本单位的一组数据，如诊断癌症，案例是一些病人的活检切片。
观察单位：用来描述被测量者的案例单位
特征：案例的一个属性或特性，一般以矩阵表格的形式呈现。特征分为多种形式，如果特征用数值衡量，那就是数值型。如果属性通过一组类别表示，这样的特征被称为分类变量或者名义变量。分类变量中一种特殊类型：有序变量，指分类变量类别落在一个有序列表，如果衣服分为大中小等。

（三）机器学习算法分类：监督学习和非监督学习。

监督学习：又称为建立预测模型的过程，目的是发现并建模目标特征（需要预测的特征）和其他特征之间的关系。具体来说，给一组数据，学习算法尝试最优化一个函数模型来找出属性值之间的组合方式，最终给出目标值。常见的任务是预测案例属于哪一类型（称之为分类）。比如给你一堆房子的面积和价格的数据，通过学习能够再输入新的面积，预测对应的价格。也就是说，先告诉你数据的“标准答案”了，让你在此基础上预测。
非监督学习：又称为建立描述性模型的过程。学习者没有特定的学习任务，没有学习目标（没有标准答案），识别数据之间的紧密性，常用于数据挖掘。例如对交易之间的购买数据进行购物篮分析，游泳裤通常和防晒霜一起买之类的。数据集按照相同类型分组的任务被称为聚类。

摘自教程：《机器学习与R语言》

0 0