简述大数据
来源:互联网 发布:手机区域截图软件 编辑:程序博客网 时间:2024/05/17 06:53
大数据:
学术解释:满足以下四个特征的数据: Volume(大量) Velocity(高速) Variety(多样) Veracity(价值)自我解释:一台机器不能存储,一台物理机器短时间内不能计算出(处理)源于Google三篇论文:GFS、MAPREDUCE、BIGTABLE相应的实现技术:HDFS、MapReduce、HBase HDFS:解决大文件如何存储?如何快速的读写?如何容错? Block(块):把文件切成块,大小?1.* 64M 2.* 128M :解决大文件如何存储及如何快速的读写,利用备份解决容错 DATANODE:存储数据 NAMENODE:存储数据的元使用: shell java api 第三方工具 50070 web
Python大数据为pyspark。
依赖关系: Pyspark:需要Python、Spark Spark:需要hadoop、jdk hadoop:需要jdk
大数据解决方案: hadoop:速度慢:他的磁盘IO太多 spark:内存(DAG)计算方式 处理数据的形式为:离线处理,不可以实时处理实时框架:Apache Flink---Blink(阿里巴巴) Apache Storm近似实时:1s(最低)
jps: SparkSubmit :spark的批处理运行模式 DATANODE :存储数据 NAMENODE :存储数据的元,NameNode控制DataNode SecondaryNameNode :Secondary NameNode是NameNode的备份 ResourceManager :负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)。 NodeManager :ResourceManager在每台机器上的代理,负责容器管理,并监控它们的资源使用情况,以及向ResourceManager/Scheduler提供资源使用报告 当输入start-dfs.sh时,jps列表中出现DATANODE、NAMENODE时,hdfs服务开启成功!也可以在防火墙关闭的前提下,在浏览器地址栏输入:ip:50070进行测试,若访问成功,即服务开启。 当输入start-yarn.sh时,jps列表中出现NodeManager、ResourceManager时,yarn服务开启成功!也可以在防火墙关闭的前提下,在浏览器地址栏输入:ip:8088进行测试,若访问成功,即服务开启
阅读全文
0 0
- 大数据简述
- 简述大数据
- 大数据架构简述(一):大数据的本质
- 大数据架构简述(二):数据获取
- 大数据架构简述(五):资源管理、存储、云
- 一图简述大数据技术生态圈
- 十大算法简述
- 大数据架构简述(四):机器学习和数据挖掘
- 探寻微博背后的大数据原理:微博推荐算法简述
- 大数据架构简述(三):流处理、批处理、交互式查询
- IOS数据存储简述
- IP数据报格式简述
- 简述大并发,大流量,大存储相关解决方案
- JSP的九大内置对象简述
- C++三大特性之继承简述
- C++三大特性之多态简述
- 简述android的五大组件
- 简述数据库设计中的五大范式
- python语言发展历史
- mySQL基本语句总结第一篇
- GitHub 版本管理
- 统计学习方法——维特比算法
- PHP规范
- 简述大数据
- java
- matplotlib绘图
- 关于数组的升序排列
- 评价成绩
- java
- gulp.spritesmith使用总结
- Android应用界面组件(中)
- Boostrap 笔记