机器学习基础

来源:互联网 发布:知乎 长青春痘 编辑:程序博客网 时间:2024/06/06 02:33

1  认识机器学习

1.1  什么是机器学习

利用计算机从历史数据中找出规律(数学函数),并把这些规律用到对未来不确定场景的决策。

注意:是利用计算机分析数据(机器学习),而不是人(数据分析)。

1.2  从数据中寻找规律

  • 概率论(基石)
  • 数理统计(采样、描述统计、假设检验)

1.3  机器学习发展的原动力

从历史数据中找出规律,把这些规律用到对未来自动做出决定。

  • 用数据代替expert。
  • 经济驱动,数据变现。

1.4  业务系统发展的历史

  • 基于专家经验
  • 基于统计——分维度统计
  • 机器学习——在线学习

注:机器学习分为离线机器学习和在线机器学习,在线机器学习强调实时性。

2  机器学习的典型应用

2.1  关联规则

购物篮分析(数据挖掘)

  • 典型案例:“啤酒+尿布”案例

2.2  聚类

用户细分,精准营销

  • 典型案例:中国移动分为神州大众卡、全球通、动感地带、神州行等

2.3  朴素贝叶斯和决策树

垃圾邮件识别

  • 朴素贝叶斯

信用卡欺诈(风险识别)

  • 决策树

2.4  ctr预估和协同过滤

互联网广告(广告顺序)

  • ctr预估(预测概率)

推荐系统(电商推荐)

  • 协同过滤

2.5  自然语言处理和图像识别

自然语言处理

  • 情感分析(根据提供的一段文本,可以分析出是积极还是消极)
  • 实体识别(从一篇文章中把人名、地名等主干识别出来)

图像识别

  • 深度学习

3  数据分析与机器学习的区别

3.1  数据特点不同

数据特点对比数据分析机器学习交易数据行为数据少量数据海量数据采样分析全量分析

注:交易数据就是跟钱有关的数据,行为数据就是如搜索历史、浏览历史等相关数据。

3.2  解决业务不同

  • 数据分析:报告过去的事情
  • 机器学习:预测未来的事情

3.3  技术手段不同

  • 数据分析:用户驱动、交互式分析
  • 机器学习:数据驱动、自动进行知识发现

3.4  参与者不同

  • 数据分析:分析师
  • 机器学习:数据+算法

4  常见的算法和分类

4.1  算法分类(1)

4.1.1  有监督学习

  • 分类算法(知道具体的X、Y类):X类(正常邮件)、Y类(垃圾邮件)
  • 回归算法

4.1.2  无监督学习

  • 聚类(不知道具体的X、Y类)

4.1.3  半监督学习(强化学习)

  • 比如学习走路,是一个强化的过程

4.2  算法分类(2)

  • 分类与回归
  • 聚类
  • 标注(标签)

4.3  算法分类(3)

  • 生成模型:模糊判断、百分比、概率
  • 判别模型:判断属于那个类型

注:生成模型与判别模型的关系就是X和E[X]的关系。

4.4  机器学习十大经典算法

十大经典算法简介

5  解决问题

5.1  机器学习解决问题(1)

确定目标->业务需求->数据->特征工程

5.2  机器学习解决问题(2)

训练模型

  • 定义模型
  • 定义损失函数
  • 优化算法

模型评估

  • 交叉验证
  • 效果评估