《机器学习实战》(一)机器学习基础

来源:互联网 发布:淘宝首页装修全屏 编辑:程序博客网 时间:2024/05/17 05:17

关键术语

训练集:用于训练机器学习算法的数据样本集合

目标变量:机器学习算法的预测结果,其中分类算法--标称型,回归算法-连续型

知识表示:展示机器学习算法获取的信息,可以使规则集、概率分布、甚至训练样本集中的一个实例


主要任务

分类(classification):将实例数据划分到合适的分类中
回归(regression):预测数值型数据。例子:数据拟合曲线
分类和回归属于监督学习(supervised learning),监督学习需要知道目标变量的分类信息。

与监督学习对应的是无监督学习(unsupervised learning),数据没有类别信息,也没有目标值
聚类(clustering):将数据集合分成有类似的对象组成的多个类
密度估计(density estimation):寻找描述数据的统计值
无监督学习可以减少数据特征的维度。

算法选择

预测目标变量的值---监督学习
目标变量类型:离散型---分类;连续型---回归

不预测目标变量的值---无监督学习
将数据划分为离散的组---聚类
估计数据与每个组的相似程度---密度估计

开发应用程序步骤

  1. 收集数据
  2. 准备输入数据
  3. 分析输入数据
  4. 训练算法(监督学习)
  5. 测试算法
  6. 使用算法

Python语言的优势

语法结构清晰,流行,比matlab便宜,就是比C和JAVA慢了一点点

1 0