机器学习实战读书笔记(一)

来源:互联网 发布:linux mint 中文 编辑:程序博客网 时间:2024/06/05 16:55

监督学习

监督学习中,给定输入样本集,机器从中推演指定目标变量的可能结果。

目标变量类型:标称型(有限目标集中取值,常用于分类)、数值型(无限数值集中取值,常用于回归)


何谓机器学习

把无序数据转换成有用的信息::地震预测、推荐系统


关键术语

训练集:用于训练机器学习算法的数据样本集合,每个训练样本包括特征属性和目标变量

测试集:用于测试机器学习算法的数据样本集合,每个训练样本只包括特征属性,程序输出目标变量

分类:目标变量为标称型

回归:目标变量为连续型


机器学习的主要任务

监督学习:分类和回归。分析目标变量的分类信息或预测

无监督学习:聚类、密度估计、降维


如何选择合适的算法

明确算法目的、分析数据格式、反复迭代试错


开发机器学习应用程序的步骤

(1)收集数据

(2)准备输入数据(格式转换)

(3)分析输入数据(删除有缺失值的数据)

(4)训练算法

(5)测试算法(不满意回到第4步)

(6)使用算法


Python语言的优势

(1)语法清晰

(2)易于操作纯文本文件

(3)使用广泛

(4)但是性能不足,功能测试后可以使用C语言替换核心代码