Azure 云中的机器学习简介

来源：互联网发布：泰国蛇毒洗面奶知乎编辑：程序博客网时间：2024/06/04 20:06

什么是机器学习？

机器学习是一项数据科研技术，可以让计算机根据现有的数据来预测将来的行为、结果和趋势。使用机器学习，计算机可以在不需显式编程的情况下进行学习。

可将机器学习视为人工智能 (AI) 的子类别。机器学习的预测可让应用和设备变得更聪明。在网上购物时，机器学习可根据购买的产品帮助推荐其他产品。刷信用卡时，机器学习可将这笔交易与交易数据库进行比较，帮助检测诈骗。当吸尘器机器人打扫房间时，机器学习可帮助它确定作业是否已完成。

有关简短概述，请观看 Data Science for Beginners（适合初学者的数据科研）系列视频。 “Data Science for Beginners”（适合初学者的数据科学）介绍了机器学习，并逐步讲解了一个简单的预测模型，整篇文章未使用行语或数学理论。

什么是 Microsoft Azure 云中的机器学习？

什么是机器学习？在 Azure 机器学习中操作预测分析的基本工作流。

Azure 机器学习是一种云预测分析服务，使用它可以快速创建预测模型，并将其部署为分析解决方案。

可以从现成可用的算法库开始工作，在连接 Internet 的电脑上使用它们创建模型和快速部署预测解决方案。可以从 Cortana Intelligence 库中的现成示例和解决方案着手。

Azure 机器学习不仅提供预测分析建模工具，还提供完全托管的服务，可以通过此服务将预测模型部署为随时可用的 Web 服务。

什么是预测分析？

预测分析使用称为算法的数学公式分析以往或当前的数据，找到模式或趋势，以便预测将来的事件。

用于在云中构建完整的机器学习解决方案的工具

Azure 机器学习具有在云中创建完整的预测分析解决方案所需的一切功能，从大型算法库、用于构建模型的工作室，到可将模型部署为 Web 服务的简单方法。快速创建、测试、实施和管理预测模型。

机器学习工作室：创建预测模型

在机器学习工作室中，可以通过拖放和连接模块快速创建预测模型。可以试验不同的组合，并且这种试验都是免费的。

在 Cortana Intelligence 库中，可以尝试其他人编写的分析解决方案，或者提供自己的解决方案。在社区发表关于试验的问题或看法，或者通过 LinkedIn 和 Twitter 等社交网络分享试验的链接。
在机器学习工作室中使用机器学习算法和模块大型库立即开始创建预测模型。从示例试验、R 和 Python 包，以及 Xbox 和 Bing 等 Microsoft 业务的一流算法中选择。使用自定义的 R 和 Python 脚本扩展工作室模块。

通过发布自己的解决方案实施预测分析解决方案

以下教程说明了如何实施预测分析模型：

部署 Web 服务
通过 API 重新训练模型
管理 Web 服务终结点
缩放 Web 服务
使用 Web 服务

机器学习的重要术语和概念

机器学习的术语有点难懂。下面提供了重要术语的定义。可以使用下面的“意见”部分告诉我们还要阐释哪些术语。

数据探索、描述性分析和预测分析

数据探索是收集大量的、通常是非结构化的数据集的相关信息，找到要重点分析的特征的过程。

数据挖掘指自动化的数据探索。

描述性分析是分析数据集以汇总事件的过程。大多数商业分析（例如销售报表、Web 指标和社交网络分析）都具有描述性。

预测分析是从历史数据或当前数据构建模型，以预测将来结果的过程。

监督式和非监督式学习

监督式学习算法使用带有标签的数据（即，包含所需示例答案的数据）进行训练。例如，识别信用卡盗用的模型，是通过包含已知诈骗收费和有效收费标记数据点的数据集训练的。大多数机器学习都是监督式的。

非监督式学习用于不带标签的数据，目标是查找数据中的关系。例如，可以查找具有类似消费习惯的客户人口统计信息。

模型训练和评估

机器学习模型将尝试回答的问题或要预测的结果抽象化。模型是通过现有数据训练和评估的。

训练数据

通过数据训练模型时，将使用已知数据集，基于数据特征进行模型调整，以求获得最准确的结果。在 Azure 机器学习中，模型是通过处理训练数据和功能模块（例如评分模块）的算法模块构建的。

在监督式学习中，如果要训练诈骗检测模型，可以使用一组标记为诈骗或有效的交易。随机拆分数据集，并使用一部分数据训练模型，使用另一部分测试或评估模型。

评估数据

训练模型后，使用剩余测试数据来评估模型。使用已经知道结果的数据，判断模型的预测是否准确。

其他常见的机器学习术语

算法：通过数据处理、数学计算或自动推理来解决问题的一组独立规则。
异常检测：标记异常的事件或值，帮助发现问题的模型。例如，信用卡诈骗检测可以查找异常的购买活动。
分类数据：按类别组织的、可分组的数据。例如，汽车的分类数据集可以指定年份、制造商、车型和价格。
分类：根据类别分组已知的数据集，将数据点组织成不同类别的模型。
特征工程：提取或选择与数据集相关的特征，以便增强数据集并改善结果的过程。例如，机票价格数据可通过星期几和假日来增强。请参阅 Feature selection and engineering in Azure Machine Learning（Azure 机器学习中的特征选择和工程）。
模块：机器学习工作室模型中的功能组件，例如，用于输入和编辑小型数据集的“输入数据”模块。算法也是机器学习工作室中的一种模块。
模型：监督式学习模型是机器学习试验的产物，其中包含训练数据、算法模块，以及功能模块（例如“评分模型”模块）。
数值数据：表示度量值（连续数据）或计数（离散数据）的数据。也名为 量化数据。
分区：将数据拆分成多个样本的方法。有关详细信息，请参阅 Partition and Sample （分区和采样）。
预测：预测是来自机器学习模型的一个或多个预测值。有时称为“预测评分”。但是，预测评分不是模型的最终输出。评分之后还要评估模型。
回归：根据独立变量预测值的模型，例如根据汽车的年份和制造商预测汽车价格。
评分：使用机器学习工作室中的 “评分模型”模块，从训练分类或回归模型生成的预测值。分类模型也返回预测值的机率评分。从模型生成分数之后，即可使用 “评估模型”模块来评估模型的准确性。
样本：用于代表整体的一部分数据集。可以随机采样，或根据数据集的具体特征采样。

阅读全文

0 0