hadoop学习之前的一些东西

来源：互联网发布：知名品牌网络授权编辑：程序博客网时间：2024/06/04 23:14

在开始学习hadoop之前，应该先了解它的应用场景是什么，它能够做什么，再来学习使用它。
应用场景（搜索结果）：
大数据量存储：分布式存储
日志处理: Hadoop擅长这个
海量计算: 并行计算
ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
机器学习: 比如Apache Mahout项目
搜索引擎:hadoop + lucene实现
数据挖掘：目前比较流行的广告推荐
大量地从文件中顺序读。HDFS对顺序读进行了优化，代价是对于随机的访问负载较高。
数据支持一次写入，多次读取。对于已经形成的数据的更新不支持。
数据不进行本地缓存（文件很大，且顺序读没有局部性）
任何一台服务器都有可能失效，需要通过大量的数据复制使得性能不会受到大的影响。
用户细分特征建模
个性化广告推荐
智能仪器推荐
是什么？能做什么？（搜索结果）：
Hadoop就是一个分布式计算的解决方案. Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的。Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理）。

*优点：***Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。

hadoop擅长日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中的自定义筛选也使用的Hive；利用Pig还可以做高级的数据处理，包括Twitter、LinkedIn 上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。

0 0