hadoop学习之前的一些东西
来源:互联网 发布:知名品牌网络授权 编辑:程序博客网 时间:2024/06/04 23:14
在开始学习hadoop之前,应该先了解它的应用场景是什么,它能够做什么,再来学习使用它。
应用场景(搜索结果):
大数据量存储:分布式存储
日志处理: Hadoop擅长这个
海量计算: 并行计算
ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
机器学习: 比如Apache Mahout项目
搜索引擎:hadoop + lucene实现
数据挖掘:目前比较流行的广告推荐
大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高。
数据支持一次写入,多次读取。对于已经形成的数据的更新不支持。
数据不进行本地缓存(文件很大,且顺序读没有局部性)
任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响。
用户细分特征建模
个性化广告推荐
智能仪器推荐
是什么?能做什么?(搜索结果):
Hadoop就是一个分布式计算的解决方案. Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理)。
*优点:***Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中 的 自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。
- hadoop学习之前的一些东西
- 学习自定义View之前你应该要知道的一些东西
- 一些之前东西(2D关卡的练习代码摘要)
- 学习RecyclerView的一些东西
- 整理一下之前工作中记录过的一些东西——informix的一些命令
- 写在学习php之前的一些话
- 学习python要下载的一些东西。
- 关于java学习的一些东西
- 看腾讯页面学习的一些东西
- Android学习---关于布局的一些东西
- Java学习二:一些零碎的东西
- 值得程序员去学习的一些东西
- 之前自学OPENGL的时候根据书上的东西,模仿着写了一些小东西
- 好久之前,就要想写一些东西了,就是没有一个适合的博客...
- 整理一下之前工作中记录过的一些东西——数据库连接
- 整理一下之前工作中记录过的一些东西——SQL
- 整理一下之前工作中记录过的一些东西——shell
- 整理一下之前工作中记录过的一些东西——informix
- maven+SSM框架工程搭建
- 《深入分析JavaWeb技术内幕》读书笔记 一.Web请求过程与架构
- 使用WebStorm创建/运行/调试React Native项目
- 【转载】CSDN如何转载别人文章
- selinux引起的ssh连接错误
- hadoop学习之前的一些东西
- MySQL数据库(12)
- 在javat如何判断字符串的值是否含有反斜杠\
- django get 数据为空处理
- CentOS6.6下搭建OpenVPN服务器
- mysql 查询今天、昨天、上月、本月的数据
- java基础9
- quartz定时任务,时间表达式
- 杭电ACM2021:发工资