hadoop学习笔记1(Hadoop的源起与体系介绍)
来源:互联网 发布:java短信接口开发demo 编辑:程序博客网 时间:2024/05/16 19:54
1,什么是大数据?什么是hadoop?
①首先它是相对的,内行话说:就是利用现存的硬件和软件无法解决的,只能通过比较复杂的方法或者集群方法来解决的数据称为大数据!
②hadoop擅长离线数据处理,不适合实时处理的。它是分布式文件系统+计算框架 ,Hadoop不是数据库,Hbase才是数据库
③并不是大公司才有大数据,现在物联网的发展,任何一个事物都可能存有大量的数据
2,越是机器能干的事情越来越不值钱了,需要人能完成的才值钱(算法方向不错的选择)
3,上面说了hadoop不适合实时方向,而strom:实时数据分析平台。。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
4,google面对的难题
①大量的网页怎么存储?
②搜索算法 (利用倒排序发可以从大量数据中迅速搜索结果)
③Page-Rank计算问题
倒排序法研究看文章(搜索引擎-倒排索引基础知识),其中的词划分思想可以是:比如输入”我爱“(有一个词典,首先分割出”我“,如果字典当中有这个字那么就把它作为一个词搜索,我爱没有的话,再搜”爱“是否在词典中,,这样依次类推)
Page-Rank :看 成就Google的Page Rank技术
5,Google带给我们的关键技术和思想 (其实hadoop中的HDFS,mapreduce,HBASE基本是google的思想的山寨版)
GFS
Map-Reduce
Bigtable(后面讲)
6,hadoop环境搭建:(安装Linux后一定要确认iptables,selinux等防火墙戒访问控制机制已经关闭,否则实
验很可能受影响)
RSA (公钥和死钥:公钥一般是公布的,但是私钥只有自己拥有,且信息经过公钥加密后,即使被盗取,如果没有私钥的话,也解不开)
①免密码的原理:A(有公钥和密钥) B(有公钥和密钥) ,如果A告知B我是A的话,B如何验证确实是A呢?
首先B用A的公钥加密信息(比如信息为challenge),发送给A,A用自己的私钥解开信息得到challenge,然后A用B的公钥加密challenge
发送给B,B用自己的私钥解开信息,如果得到的challenge,那么就认为对方确实是A
②
- hadoop学习笔记1(Hadoop的源起与体系介绍)
- Hadoop的源起与体系介绍
- 第1周 Hadoop的源起与体系介绍
- Hadoop体系的介绍
- 从零学习Hadoop--001Hadoop的起源与体系介绍
- Hadoop学习笔记10@进程起停
- Hadoop的源起----lucene
- hadoop 体系介绍
- Hadoop体系介绍
- Hadoop体系介绍
- hadoop介绍(关于hadoop技术知识的学习笔记)
- Hadoop学习笔记之:HDFS体系架构
- Hadoop的起源和体系介绍
- Hadoop学习体系
- Alex 的 Hadoop 菜鸟教程: 第1课 hadoop体系介绍
- Hadoop基本介绍与环境配置(笔记1)
- Hadoop总结(1)-体系
- Hadoop学习笔记 --- 文件格式介绍
- WPF窗体缩放移动-实现代码
- OCP 1Z0 053 124
- oracle转mysql过程中的sum over处理
- android软件开发之webView.addJavascriptInterface循环渐进【二】
- 概率规划和贝叶斯方法
- hadoop学习笔记1(Hadoop的源起与体系介绍)
- python import的用法
- springmvc和servlet下的文件上传和下载(存文件目录和存数据库Blob两种方式)
- OS程序发布测试2-获取Tester设备UDID
- ueditor 1.4.3 图片上传配置注意事项
- windows注册表详解
- 使用Lucid Virtu在有独立显卡的情况下使用Intel硬件加速H.264编码
- mac系统下vi编辑器中的关键字高亮设置
- 淘宝开放平台API交流