hadoop入门五（基础知识入门）

来源：互联网发布：海绵城市知乎编辑：程序博客网时间：2024/06/05 06:13

学习hadoop应该预备的知识

这里写图片描述

面向对象
IO操作
文件目录操作
常用命令
VIM编辑器

hadoop是个什么玩意

这里写图片描述

解释：

目前的计算机处理不了的数据量
生成线上的数据放到数据仓库，离线进行处理。
不支持事物，文件内容很难修改，一般都是追加。

再次强调：Hadoop不是数据库，是个文件系统+计算框架
整个大数据变化都是很快速的

场景：
- 电子商务浏览记录日志记录
- 电信通话行为
- 各种传感器购买行为货架摆货
物联网时代，都可能产出大数据。

想要达成的目标

这里写图片描述

安装部署 hadoop以及相关的产品
导入数据需要的工具
如果与其他工具进行集成
hdfs怎么工作的
会写mapreduce

Hadoop典型的职位

这里写图片描述

针对大公司更改源码开发
架构师基础架构数据架构
数据仓库工程师业务需求

大数据的知识路线图

这里写图片描述

流数据处理：计算后触发某个动作
虚拟化：基本上是做平台

典型的实验环境(有服务器)

这里写图片描述

ESXI:是VMware的产品永久免费试用
通过远程连接服务器

典型的实验环境(只有PC 或者笔记本)

这里写图片描述

virtualbox是Oracle的产品轻量级
BIOS 要首先打开虚拟化
linux 系统都可以

Hadoop的思想源泉

这里写图片描述

谷歌的搜索很重要
YouTube 在被谷歌收购以后运营成本就变低了

集装箱数据中心

这里写图片描述

很简单放到集装箱中找到一个破烂的地方就可以搭建

Google 面对的数据和计算难题

这里写图片描述

我爬取的各种网页怎么存储呢？
谷歌的算法响应时间很短怎么做的？
怎么推荐搜索结果？对价值进行排名

倒排索引

这里写图片描述

比如有一个文章首先将文章进行分词搜我：找到我–在网页–在偏移量–快速定位
并不基于任何数据库产品，自己有一套。
这里写图片描述

但是目前谷歌不会使用这么简单的算法是核心的秘密能够在一堆辣鸡中得到用户想要的东西，所以大量用户聚集到谷歌。如果页面的点击数越多是不是越好呢？理论上型的通，但是点击率只有站长知道
根据链接来判断页面的价值，大家都指向它。还有指向的价值也是不一样的。
类似数学建模中的判断矩阵
a是由工程师计算出来的能够很好的区分页面
特征向量：求页面的价值变成求特征值
迭代以后向量是收敛的也就是说得到稳定的特征向量
假设有100万个网页那就是100万*100万，但是编写程序的时候是没有办法实现的！我可以使用分布式在不同的电脑上进行计算。
这里写图片描述

在q1节点上都做类似的事情，用分散的思想来把负荷映射到各个节点，最后在一个节点中汇总。

谷歌带给我们的关键技术和思想

这里写图片描述

Hbase:是bigtable的山寨版

阅读全文

0 0