简述大数据

来源:互联网 发布:手机区域截图软件 编辑:程序博客网 时间:2024/05/17 06:53

大数据:

学术解释:满足以下四个特征的数据:    Volume(大量)  Velocity(高速)    Variety(多样) Veracity(价值)自我解释:一台机器不能存储,一台物理机器短时间内不能计算出(处理)源于Google三篇论文:GFS、MAPREDUCE、BIGTABLE相应的实现技术:HDFS、MapReduce、HBase    HDFS:解决大文件如何存储?如何快速的读写?如何容错?    Block(块):把文件切成块,大小?1.* 64M 2.* 128M :解决大文件如何存储及如何快速的读写,利用备份解决容错    DATANODE:存储数据    NAMENODE:存储数据的元使用:    shell    java api    第三方工具    50070 web

Python大数据为pyspark。

    依赖关系:        Pyspark:需要Python、Spark                        Spark:需要hadoop、jdk                            hadoop:需要jdk
大数据解决方案:    hadoop:速度慢:他的磁盘IO太多    spark:内存(DAG)计算方式    处理数据的形式为:离线处理,不可以实时处理实时框架:Apache Flink---Blink(阿里巴巴)        Apache Storm近似实时:1s(最低)
jps:    SparkSubmit          :spark的批处理运行模式    DATANODE             :存储数据    NAMENODE             :存储数据的元,NameNode控制DataNode    SecondaryNameNode    :Secondary NameNode是NameNode的备份    ResourceManager      :负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)。    NodeManager          :ResourceManager在每台机器上的代理,负责容器管理,并监控它们的资源使用情况,以及向ResourceManager/Scheduler提供资源使用报告    当输入start-dfs.sh时,jps列表中出现DATANODE、NAMENODE时,hdfs服务开启成功!也可以在防火墙关闭的前提下,在浏览器地址栏输入:ip:50070进行测试,若访问成功,即服务开启。    当输入start-yarn.sh时,jps列表中出现NodeManager、ResourceManager时,yarn服务开启成功!也可以在防火墙关闭的前提下,在浏览器地址栏输入:ip:8088进行测试,若访问成功,即服务开启  
原创粉丝点击