学习计划 - hadoop
来源:互联网 发布:老虎黄金外汇软件 编辑:程序博客网 时间:2024/06/15 18:04
学习目标
hadoop在什么背景下产生
当时,有一个组织在做全球免费搜索业务,但是面临大量的存储和计算,此时,Google分享了两篇论文,一个是分布式存储,稍后是分布式计算,但是Google并没有释放出源代码,该组织依据分布式存储的论文,做出了hadoop,实现了分布式存储,稍后Yahoo继续维护hadoop hdfs以及研发了mapreduce实现。
hadoop当前发展如何
hadoop当前版本3.0.0 alpha,特点,可以运行3台namenode和5台journalnode。
hadoop的技术术语有哪些
hdfs。 分布式存储。将一个文件分成若干chunk,进行分布式存储,并且有replication,默认是3,用来提高防单点,namenode负责维护chunk的位置信息,或者叫做元数据信息。分布式文件系统的概念也不难理解, 传统的存储介质是硬盘,格式化后会有inode用于文件在磁盘的位置,然后就是存储数据;hdfs就是将inode和data进行了分离,namenode作为元数据(inode)的存储,datanode作为data进行存储。
mapreduce。分布式计算。由于数据是分散存储在一批机器里面的,所以分布式计算也就是把需求者的一个计算任务,分解成很多小任务(map),最后再合并结果(reduce)。
hadoop如何部署
部署分为单机,也就做伪分布式;另外一种就是分布式。前者主要用于学习和研究hadoop的功能,消耗资源小;后者主要用于生产环境部署,包括防单点和运行速度快。
hadoop如何维护
namenode的维护。主要是内存,cpu。
datanode的维护。主要是存储容量,如果datanode上面也在运行jobtracker,那么需要注意网络、内存、cpu。
过去有没有遇到过hadoop运维中棘手的问题
(印象记忆,准确度需核实)THP transparent huge page。CentOS系统在6之后引入了THP的概念,主要是同样的内存,用多少page多少address代表同样一块内存,但是在hadoop环境下,会造成系统负载升高,禁用后系统性能得到提升。CentOS 6.5之后该THP默认就是禁用的了。
TCP Abort问题。
在晚高峰期间,hadoop namenode会记录一些连接超时的现象出现,有一次甚至影响到了集群的稳定,发生了切换,经过一周的排查,最终锁定由于网络流量过载,导致namenode等重要节点之间的通信出现TCP Aborted现象。 该机制也就是TCP的错误重传机制。当一个数据包由数据源发出,经过交换机上联以及核心之后到到目的地,由于datanode job之间的流量造成交换机网络上联出现瓶颈,造成namenode通信丢包,情况严重,最终导致namenode发生切换。该问题在上联升级到80Gbps之后得到有效缓解。
- Hadoop学习计划
- 学习计划 - hadoop
- Hadoop学习计划
- 学习计划
- 学习计划
- 学习计划
- 学习计划
- 学习计划
- 学习计划
- 学习计划
- 学习计划
- 学习计划:
- 学习计划
- 学习计划
- 学习计划
- 学习计划
- 学习计划
- 学习计划
- 学习计划 - zookeeper
- tab切换 以及 jquery追加与移除
- Yeelink:将复杂的传感器以极简的方式组到同一个网络内
- 学习计划 - redis
- tjut 3518
- 学习计划 - hadoop
- ViewPager
- 学习计划 - kafka
- C++学习笔记(一)--整形,std输出,浮点数,数组,字符串,结构,指针,循环
- Vijos P1905 生活大爆炸版 石头剪刀布(滚动数组)
- java正则表达式常见验证
- 设计模式学习第十九天
- EF 学习笔记
- pat_BL_1019