第一章 初识hadoop

来源:互联网 发布:医学答案软件 编辑:程序博客网 时间:2024/05/18 04:49

容量的单位

顺序:从小到大

1024

MB->GB->TB->PB->EB->ZB->YB


名言:大数据胜于好算法


大数据真实需求案例:邮件公司日志,每月运行一个mapreduce,任务帮助公司决定在哪些Rackspace数据中心需要添加新的服务器


硬盘操作的延迟主要受两方面影响:

1、寻址时间:将磁头移动到特定的硬盘位置进行读写操作的过程

2、传输速率,取决于硬盘的带宽,eg:固态硬盘和普通硬盘


关系型数据库和mapreduce的比较 传统关系数据库MapReduce数据大小GBPB数据存储交互式和批处理批处理更新多次读/写一次写入,多次读取结构静态模式动态模式完整性高低横向扩展非线性线性

结构化数据:有类型有数据,比如JAVA String a= 1;eg:XML数据

半结构数据:有数据无类型,比如PHP $a = 1;eg:Excel数据

非结构数据:无内部结构纯文本图片

Hadoop发展史

名字是飞象,小朋友起的名字,好拼写,含义宽泛,易于传播

hadoop在雅虎 腾飞

版本1.x ,0.22,2.x