hadoop学习笔记1(Hadoop的源起与体系介绍)

来源:互联网 发布:java短信接口开发demo 编辑:程序博客网 时间:2024/05/16 19:54

1,什么是大数据?什么是hadoop?

①首先它是相对的,内行话说:就是利用现存的硬件和软件无法解决的,只能通过比较复杂的方法或者集群方法来解决的数据称为大数据!

②hadoop擅长离线数据处理,不适合实时处理的。它是分布式文件系统+计算框架 ,Hadoop不是数据库,Hbase才是数据库 

③并不是大公司才有大数据,现在物联网的发展,任何一个事物都可能存有大量的数据

2,越是机器能干的事情越来越不值钱了,需要人能完成的才值钱(算法方向不错的选择)

3,上面说了hadoop不适合实时方向,而strom:实时数据分析平台。。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

4,google面对的难题

①大量的网页怎么存储? 
②搜索算法 (利用倒排序发可以从大量数据中迅速搜索结果)
③Page-Rank计算问题 

倒排序法研究看文章(搜索引擎-倒排索引基础知识),其中的词划分思想可以是:比如输入”我爱“(有一个词典,首先分割出”我“,如果字典当中有这个字那么就把它作为一个词搜索,我爱没有的话,再搜”爱“是否在词典中,,这样依次类推)

Page-Rank :看 成就Google的Page Rank技术

5,Google带给我们的关键技术和思想 (其实hadoop中的HDFS,mapreduce,HBASE基本是google的思想的山寨版)
 GFS  
 Map-Reduce 
 Bigtable(后面讲)

6,hadoop环境搭建:(安装Linux后一定要确认iptables,selinux等防火墙戒访问控制机制已经关闭,否则实
验很可能受影响)

      RSA (公钥和死钥:公钥一般是公布的,但是私钥只有自己拥有,且信息经过公钥加密后,即使被盗取,如果没有私钥的话,也解不开)

①免密码的原理:A(有公钥和密钥)  B(有公钥和密钥) ,如果A告知B我是A的话,B如何验证确实是A呢?

 首先B用A的公钥加密信息(比如信息为challenge),发送给A,A用自己的私钥解开信息得到challenge,然后A用B的公钥加密challenge

发送给B,B用自己的私钥解开信息,如果得到的challenge,那么就认为对方确实是A




0 0
原创粉丝点击