Spark机器学习2
来源:互联网 发布:java开发广告发布系统 编辑:程序博客网 时间:2024/05/29 05:55
2. 设计机器学习系统
- 现代的大数据场景包含如下需求:
- 必须能与系统的其他组件整和
- 易于扩展且与其他组件相对独立
- 支持高效完成所需类型的计算
- 最好能同时支持批处理和实时处理
- 机器学习系统商业用例
- 个性化,是根据各种因素来改变用户体验和呈现给用户内容。推荐从根本上说是个性化的一种,指向用户呈现一个他们可能感兴趣的物品列表。
- 目标营销和客户细分
- 预测建模与分析
2.1 数据清理与转换
- 大部分机器学习模型所处理的都是特征。特征通常是输入变量所对应的可用于模型的数值表示。
- 绝大部分情况下,原始数据都需要经过预处理才能为模型所使用。预处理的情况可能包括以下几种:
- 数据过滤
- 处理数据缺失、不完整或有缺陷
- 处理可能的异常、错误和异常值
- 合并多个数据源
- 数据汇总
- 数据转换和特征提取时常见的挑战:
- 将类别数据编码为对应的数值表示
- 从文本数据提取有用信息
- 处理图像或是音频数据
- 数值数据常被转换为类别数据以减少某个变量的可能值的数目。例如将年龄分为几段
- 对数值特征进行转换
- 对特征进行正则化、标准化,以保证统一模型的不同输入变量的值域相同
- 特征工程是对现有变量进行组合或转换以生成新特征的过程
0 0
- Spark机器学习2
- Spark机器学习笔记2--设计机器学习系统
- Spark 机器学习《一》
- SPARK机器学习库
- Spark机器学习1
- Spark机器学习5
- Spark机器学习3
- Spark机器学习示例
- Spark机器学习读书笔记
- spark机器学习-前言
- Spark 机器学习拾遗
- spark-机器学习-1
- Spark机器学习
- spark机器学习本质
- spark机器学习-聚类
- Spark机器学习
- Spark机器学习-1
- spark python 机器学习
- android Activity和Fragment创建视图的不同
- 结对编程杂谈
- ELM基础
- 自己觉得学习Java中比较有趣的小练习
- 逻辑操作与条件操作的区别
- Spark机器学习2
- 有用的摄影测量与遥感专业英文文献
- 黑马程序员---java基础---多态,抽象类,接口
- leetcode 243: Shortest Word Distance
- listView的convertView复用机制
- oracle中的空值问题2 -- null!=null
- Java并发编程实践之Callable,Future,RutureTask的使用
- 关于Logcat在真机调试时没有输出的问题
- 爬取淘宝MM图片