Hadoop认知--在不同的阶段
来源:互联网 发布:红黑树算法 java 编辑:程序博客网 时间:2024/06/10 05:51
入门阶段
出于兴趣,及工作中的简单实用,大约经过1个月的时间,完成了对Hadoop的基本认知。
在这个月中我干了如下几件事
1、大体看了《Hadoop权威指南》,把里面的代码手工码了一遍,并写了8篇学习笔记
2、配置了Hadoop1和Hadoop2集群,都是用4台虚拟机
3、听了一些Hadoop视频
基本认知如下
Hadoop是一种大数据处理框架,这种大数据框架所能处理的场景实际是非常非常有限的,只能是键值对数据,只能是一行一行的固定格式化的数据,这种特性决定了它非常适合用来处理日志类文件,进行数据分析和挖掘。
Hadoop的核心是HDFS和MapReduce,HDFS是一种分布式的文件系统,MapReduce就是上面说的键值对计算模型,每次MapReduce计算任务都有一个固定的任务执行流程,所以对于小量数据分析来说(比如几万行数据),MapReduce其实一点都不快,用其他的编程方式处理,其实瞬间就完成了,MapReduce的这种工作方式只适合处理大数据,当然,Hadoop本身就是为大数据而生的。
Hive被我略过了,认知肤浅,先忽略。
Hbase所谓使用的变态数据插入场景,可能实际工作很难遇到,并且Mongo更易用,我做搜索推荐时,实际是使用Mongo存储中间数据及计算结果。
Cassandra,被略过了,工作中使用redis,并且redis3.0开始,支持分片了,简单易用,性能高效。
Pig,当前没有意愿花时间去学这样一个脚本语言,对于有大量基于Hadoop进行查询分析业务的公司,可能有使用的必要。
Sqoop,没有使用,先忽略。
Zookeeper,这真是个好东西,很多开源框架都使用Zookeeper作为开分布式协调中心,比如Dubbo、Otter等。
从学习成本角度,横向比较的话,我感觉Hadoop可以说和MySql之类是一个量级的产品,很快会用,但是想进阶,想精通,就需要在理论的基础上,在应用中不断的实践了。
进阶阶段
通过大量的日常工作中的Hadoop的使用,可以达到进阶阶段。
工作使用较少,我还是入门水平,期望有大量使用的机会,早日进阶,也让我知道在进阶阶段,我会对Hadoop是怎样的一个认知,再回来补充这篇日志
- Hadoop认知--在不同的阶段
- 程序员的不同阶段
- java的不同阶段
- 人生不同的阶段
- 如何在不同的阶段选择合适的学习资料
- 如何在不同的阶段选择合适的学习资料
- 如何在不同的阶段选择合适的学习资料
- 电子邮件营销在营销不同阶段的使用方法
- 网站在不同阶段的注意点及推广攻略
- log4j配置文件在java程序不同阶段的位置
- hadoop认知
- 在不同场景里,用户使用手机时的认知水平和操作绩效
- 十几年编程的不同认知层次
- 对不同操作系统使用方法的 认识/认知
- 不同的阶段,不同的收获
- 不同的阶段不同的要求
- 不同测试阶段的要求
- 软件设计不同阶段的关注点
- ubuntu 12.04.04 LTS server Samba配置
- JAVA性能测试工具
- sql 判断 函数 存储过程是否存在的方法
- Java连接SQLServer时”到主机 的 TCP/IP 连接失败“
- 在 Sql 中统计某个区段值的小技巧
- Hadoop认知--在不同的阶段
- Linux设备驱动开发详解-Note(9) --- Linux 文件系统与设备文件系统(1)
- inline函数
- newsstand杂志阅读应用源码ipad版
- wmp Sniffer
- 无外网ubuntu系统下安装gcc make等
- Oracle-日志详解(运行模式、分类)
- JavaScript定时器
- 十分钟轻松理解yarn原理