Big Data课程总结 ( 1 )
来源:互联网 发布:java构造器有什么用 编辑:程序博客网 时间:2024/06/05 20:35
介绍
big data 是什么
随着电脑、手机、网络的发展,各种各样的非结构化(unstructured data) 和半结构化(semi structured)的数据源源不断的产生。而且由于产生的速度非常快(以微博为例,每天发送的微博、产生的地理信息、浏览log都是可供分析的数据),过去的存储方式和数据调用方式已经不足以支持这么大量的数据(以PB计)。所以产生了4种主要的策略去解决这个问题:
- Distributed computing system (分布式计算系统)
- Massively parallel processing
- NoSQL
- Analytical Database
同时大数据具有5V特性:Volume(大量),Velocity(速度), Veracity(真实性 ),Variety(多样性),Value(价值)。
处理大数据的主要步骤包括
- Storage(存储)
- ingestion (…不会翻译)
- Query (提取)
- Process
- Analyze(分析)
- Report (报告)
什么是分布式系统
简单的说就是一个系统,这个系统建立在多台联网的计算机上, 并且这些计算机的沟通和协作仅通过传递消息(messages)。这些计算机同时运行,如果出现问题是相对独立不涉及其他计算机,并且不使用同一个global clock。
什么是Hadoop
Hadoop是一个为解决大量数据的分布式存储和大量并行任务的分布运行的软件框架,所以他是一个framework。
他的优点是 成本低、存储灵活、开源、容错好、能进行复杂的数据运算。
Hadoop的家族成员如下,左侧为实现的功能,右侧为该工具的名字:
而Hadoop的核心是最常听说的HDFS(存储)、YARN(集群资源管理)和MapReduce(运行核心)。
MapReduce是Hadoop原有的运行框架,而现在Spark作为一个新兴的数据处理引擎,正在逐步取代MapReduce的地位。
0 0
- Big Data课程总结 ( 1 )
- Coursera Big Data系列课程笔记1
- Coursera Big Data系列课程笔记2
- Big Data (1)
- Big Data--1, 初识hadoop
- Big Data 学习笔记【1】
- BIG DATA
- Big Data
- Big Data
- Big Data
- Big Data
- Big data
- BIG DATA
- Big Data
- Big-Data
- Big Data
- Use External Storage Process Big Data(1)
- Big Data(2): DGIM算法实现-1
- 关于CT中pitch 的解释 (What is pitch?)
- 03、React系列之--ES6的新特性
- 平衡小车学习记录
- 04、React系列之--开发工具Atom配置
- linux下的文件链接
- Big Data课程总结 ( 1 )
- 05、React系列之--永不过时的Hello world
- day57_电力项目_图形报表&项目分析
- python datetime.timedelta对象
- 机器学习12-支持向量机的数学上定义
- 06、React系列之--使用browserify管理
- I/O流
- 腾讯小白作业4.16.html
- 二叉树的最大深度