Spark高级数据分析——互动出版网
来源:互联网 发布:数据圈登录不了 编辑:程序博客网 时间:2024/05/01 19:07
这篇是计算机类的优质推荐>>>>《Spark高级数据分析》
Cloudera公司数据科学家团队携手打造,教你用Spark进行大规模数据分析
编辑推荐
这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。
本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。
本书介绍了以下模式:
音乐推荐和Audioscrobbler数据集
用决策树算法预测森林植被
基于K均值聚类进行网络流量的异常检测
基于潜在语义分析技术分析维基百科
用GraphX分析伴生网络
对纽约出租车轨迹进行空间和时间数据分析
通过蒙特卡罗模拟来评估金融风险
基因数据分析和BDG项目
用PySpark和Thunder分析神经图像数据
本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。
本书介绍了以下模式:
音乐推荐和Audioscrobbler数据集
用决策树算法预测森林植被
基于K均值聚类进行网络流量的异常检测
基于潜在语义分析技术分析维基百科
用GraphX分析伴生网络
对纽约出租车轨迹进行空间和时间数据分析
通过蒙特卡罗模拟来评估金融风险
基因数据分析和BDG项目
用PySpark和Thunder分析神经图像数据
内容简介
本书是使用Spark进行大规模数据分析的实战宝典,由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。
作译者
Sandy Ryza
是Cloudera公司资深数据科学家,Apache Spark项目的活跃代码贡献者。最近领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。
Uri Laserson
是Cloudera公司资深数据科学家,专注于Hadoop生态系统中的Python部分。
Sean Owen
是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。
Josh Wills
是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。
是Cloudera公司资深数据科学家,Apache Spark项目的活跃代码贡献者。最近领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。
Uri Laserson
是Cloudera公司资深数据科学家,专注于Hadoop生态系统中的Python部分。
Sean Owen
是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。
Josh Wills
是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。
媒体评论
“四位作者研习Spark已久,他们在本书中跟读者分享了关于Spark的大量精彩内容,而且本书的案例部分同样出众!对于这本书,我最钟爱的是它强调案例,且这些案例都源于现实数据和实际应用……认真研读此书,你应该可以吸收这些案例中的思想,并直接将其运用在自己的项目中!”
——Matei Zaharia,Databricks公司CTO兼Apache Spark项目副总裁
——Matei Zaharia,Databricks公司CTO兼Apache Spark项目副总裁
0 0
- Spark高级数据分析——互动出版网
- Spark快速大数据分析——互动出版网
- 游戏数据分析的艺术——互动出版网
- 大数据和大分析——互动出版网
- Spark机器学习——互动出版网
- AngularJS高级程序设计——互动出版网
- 数据分析变革 大数据时代精准决策之道——互动出版网
- 数据驱动安全:数据安全分析、可视化和仪表盘——互动出版网
- 触手可及的大数据分析工具——Tableau案例集——互动出版网
- 数据分析与呈现——使用JavaScript & jQuery——互动出版网
- R语言数据分析与挖掘实战——互动出版网
- Docker源码分析——互动出版网
- 大数据算法——互动出版网
- 数据挖掘核心技术揭秘——互动出版网
- 智能大数据SMART准则:数据分析方法、案例和行动纲领——互动出版网
- 实战Gradle——互动出版网
- Android群英传——互动出版网
- 小白学运营——互动出版网
- 006.self 作为方法的返回值
- fill和fill_n函数的应用
- 使用TCP传输从客户端上传文件到服务器端
- Linux初学笔记之<用户和用户组操作>
- 在uboot中加入一键nfs启动选项,方便调试工作
- Spark高级数据分析——互动出版网
- 视频H.263与H.264的比较
- Pawn Storm网络间谍行动再度现身
- 005.self 用来访问成员变量
- 二.简单tree
- QListWidget滚动条自动下滚
- 此为传送门,关于学习html、css、js、apache、php、mysql的学习
- Spring MVC 乱码问题
- (二)MySQL InnoDB锁模型