Azure 云中的机器学习简介

来源:互联网 发布:泰国蛇毒洗面奶知乎 编辑:程序博客网 时间:2024/06/04 20:06

什么是机器学习?

机器学习是一项数据科研技术,可以让计算机根据现有的数据来预测将来的行为、结果和趋势。 使用机器学习,计算机可以在不需显式编程的情况下进行学习。

可将机器学习视为人工智能 (AI) 的子类别。 机器学习的预测可让应用和设备变得更聪明。 在网上购物时,机器学习可根据购买的产品帮助推荐其他产品。 刷信用卡时,机器学习可将这笔交易与交易数据库进行比较,帮助检测诈骗。 当吸尘器机器人打扫房间时,机器学习可帮助它确定作业是否已完成。

有关简短概述,请观看 Data Science for Beginners(适合初学者的数据科研)系列视频。 “Data Science for Beginners”(适合初学者的数据科学)介绍了机器学习,并逐步讲解了一个简单的预测模型,整篇文章未使用行语或数学理论。

什么是 Microsoft Azure 云中的机器学习?

什么是机器学习? 在 Azure 机器学习中操作预测分析的基本工作流。

Azure 机器学习是一种云预测分析服务,使用它可以快速创建预测模型,并将其部署为分析解决方案。

可以从现成可用的算法库开始工作,在连接 Internet 的电脑上使用它们创建模型和快速部署预测解决方案。 可以从 Cortana Intelligence 库中的现成示例和解决方案着手。

Azure 机器学习不仅提供预测分析建模工具,还提供完全托管的服务,可以通过此服务将预测模型部署为随时可用的 Web 服务。

什么是预测分析?

预测分析使用称为算法的数学公式分析以往或当前的数据,找到模式或趋势,以便预测将来的事件。

用于在云中构建完整的机器学习解决方案的工具

Azure 机器学习具有在云中创建完整的预测分析解决方案所需的一切功能,从大型算法库、用于构建模型的工作室,到可将模型部署为 Web 服务的简单方法。 快速创建、测试、实施和管理预测模型。

机器学习工作室:创建预测模型

在 机器学习工作室中,可以通过拖放和连接模块快速创建预测模型。 可以试验不同的组合,并且这种试验都是免费的。

  • 在 Cortana Intelligence 库中,可以尝试其他人编写的分析解决方案,或者提供自己的解决方案。 在社区发表关于试验的问题或看法,或者通过 LinkedIn 和 Twitter 等社交网络分享试验的链接。

    在 Azure Cortana Intelligence 库中尝试运行预测试验,或者补充自己的试验

  • 在机器学习工作室中使用 机器学习算法和模块 大型库立即开始创建预测模型。 从示例试验、R 和 Python 包,以及 Xbox 和 Bing 等 Microsoft 业务的一流算法中选择。 使用自定义的 R 和 Python 脚本扩展工作室模块。

    什么是预测分析:Azure 机器学习工作室中的预测分析试验示例

通过发布自己的解决方案实施预测分析解决方案

以下教程说明了如何实施预测分析模型:

  • 部署 Web 服务
  • 通过 API 重新训练模型
  • 管理 Web 服务终结点
  • 缩放 Web 服务
  • 使用 Web 服务

机器学习的重要术语和概念

机器学习的术语有点难懂。 下面提供了重要术语的定义。 可以使用下面的“意见”部分告诉我们还要阐释哪些术语。

数据探索、描述性分析和预测分析

数据探索 是收集大量的、通常是非结构化的数据集的相关信息,找到要重点分析的特征的过程。

数据挖掘 指自动化的数据探索。

描述性分析 是分析数据集以汇总事件的过程。 大多数商业分析(例如销售报表、Web 指标和社交网络分析)都具有描述性。

预测分析 是从历史数据或当前数据构建模型,以预测将来结果的过程。

监督式和非监督式学习

监督式学习 算法使用带有标签的数据(即,包含所需示例答案的数据)进行训练。 例如,识别信用卡盗用的模型,是通过包含已知诈骗收费和有效收费标记数据点的数据集训练的。 大多数机器学习都是监督式的。

非监督式学习 用于不带标签的数据,目标是查找数据中的关系。 例如,可以查找具有类似消费习惯的客户人口统计信息。

模型训练和评估

机器学习模型将尝试回答的问题或要预测的结果抽象化。 模型是通过现有数据训练和评估的。

训练数据

通过数据训练模型时,将使用已知数据集,基于数据特征进行模型调整,以求获得最准确的结果。 在 Azure 机器学习中,模型是通过处理训练数据和功能模块(例如评分模块)的算法模块构建的。

在监督式学习中,如果要训练诈骗检测模型,可以使用一组标记为诈骗或有效的交易。 随机拆分数据集,并使用一部分数据训练模型,使用另一部分测试或评估模型。

评估数据

训练模型后,使用剩余测试数据来评估模型。 使用已经知道结果的数据,判断模型的预测是否准确。

其他常见的机器学习术语

  • 算法:通过数据处理、数学计算或自动推理来解决问题的一组独立规则。
  • 异常检测:标记异常的事件或值,帮助发现问题的模型。 例如,信用卡诈骗检测可以查找异常的购买活动。
  • 分类数据:按类别组织的、可分组的数据。 例如,汽车的分类数据集可以指定年份、制造商、车型和价格。
  • 分类:根据类别分组已知的数据集,将数据点组织成不同类别的模型。
  • 特征工程:提取或选择与数据集相关的特征,以便增强数据集并改善结果的过程。 例如,机票价格数据可通过星期几和假日来增强。 请参阅 Feature selection and engineering in Azure Machine Learning(Azure 机器学习中的特征选择和工程)。
  • 模块:机器学习工作室模型中的功能组件,例如,用于输入和编辑小型数据集的“输入数据”模块。 算法也是机器学习工作室中的一种模块。
  • 模型:监督式学习模型是机器学习试验的产物,其中包含训练数据、算法模块,以及功能模块(例如“评分模型”模块)。
  • 数值数据:表示度量值(连续数据)或计数(离散数据)的数据。 也名为 量化数据
  • 分区:将数据拆分成多个样本的方法。 有关详细信息,请参阅 Partition and Sample (分区和采样)。
  • 预测:预测是来自机器学习模型的一个或多个预测值。 有时称为“预测评分”。 但是,预测评分不是模型的最终输出。 评分之后还要评估模型。
  • 回归:根据独立变量预测值的模型,例如根据汽车的年份和制造商预测汽车价格。
  • 评分:使用机器学习工作室中的 “评分模型”模块 ,从训练分类或回归模型生成的预测值。 分类模型也返回预测值的机率评分。 从模型生成分数之后,即可使用 “评估模型”模块来评估模型的准确性。
  • 样本:用于代表整体的一部分数据集。 可以随机采样,或根据数据集的具体特征采样。
原创粉丝点击