hadoop问题集合

来源:互联网 发布:卷皮网怎样跳转到淘宝 编辑:程序博客网 时间:2024/05/09 07:30

1、hadoop是什么:

Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduceGoogle档案系统的论文自行实作而成。简而言之,就是一个分布式计算平台。核心为Hadoop Distributed System(Hadoop分布式文件系统)和MapReduce编程框架。Hadoop框架透明地为应用提供可靠性和数据移动;实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。hadoop的整个框架能够自动处理节点故障。

 hadoop的相关项目:hbase(列数据库)、hive(数据仓库工具)、zookeeper(分布式锁设施)、avro(新的数据序列化格式与传输工具,可取代Hadoop原有的IPC机制)。

2、基本原理:

      http://my.csdn.net/my/album/show/273809

        Map->shuffle->Reduce.

3、文件的权限问题

     用户目录权限为 755 或者 700,不能是其他权限;.ssh目录权限必须为755;

 id_rsa.pub 及authorized_keys权限必须为644;id_rsa权限必须为600 .

4、HDFS的数据块:

     这个数据块的大小不大于64MB。


0 0
原创粉丝点击