机器学习(一):简介

来源:互联网 发布:网络分层结构怎么理解 编辑:程序博客网 时间:2024/05/16 04:04

什么是机器学习?一个不是很正式的回答是:不直接通过编程让计算机解决问题,而是试着让计算机自己找到解决方式。

(一)学习过程可以分为:数据输入,抽象化,一般化。

抽象化:由学习任务和所分析的数据类型来决定学习的模型,用这个模型来拟合数据集(称之为训练),然后数据就转换为一个汇总了原始信息的抽象形式。
一般化:把抽象知识转化为可以应用的行动。

(二) 机器学习应用于数据的步骤

1.收集数据
2.探索数据和准备数据
3.基于数据训练模型。
4.评价模型性能
5.改进模型

案例:分析事物最基本单位的一组数据,如诊断癌症,案例是一些病人的活检切片。
观察单位:用来描述被测量者的案例单位
特征:案例的一个属性或特性,一般以矩阵表格的形式呈现。特征分为多种形式,如果特征用数值衡量,那就是数值型。如果属性通过一组类别表示,这样的特征被称为分类变量或者名义变量。分类变量中一种特殊类型:有序变量,指分类变量类别落在一个有序列表,如果衣服分为大中小等。

(三)机器学习算法分类:监督学习和非监督学习。

监督学习:又称为建立预测模型的过程,目的是发现并建模目标特征(需要预测的特征)和其他特征之间的关系。具体来说,给一组数据,学习算法尝试最优化一个函数模型来找出属性值之间的组合方式,最终给出目标值。常见的任务是预测案例属于哪一类型(称之为分类)。比如给你一堆房子的面积和价格的数据,通过学习能够再输入新的面积,预测对应的价格。也就是说,先告诉你数据的“标准答案”了,让你在此基础上预测。
非监督学习:又称为建立描述性模型的过程。学习者没有特定的学习任务,没有学习目标(没有标准答案),识别数据之间的紧密性,常用于数据挖掘。例如对交易之间的购买数据进行购物篮分析,游泳裤通常和防晒霜一起买之类的。数据集按照相同类型分组的任务被称为聚类

摘自教程:《机器学习与R语言》

0 0
原创粉丝点击