简述大数据

来源：互联网发布：手机区域截图软件编辑：程序博客网时间：2024/05/17 06:53

大数据：

学术解释：满足以下四个特征的数据：    Volume（大量）  Velocity（高速）    Variety（多样） Veracity（价值）自我解释：一台机器不能存储，一台物理机器短时间内不能计算出（处理）源于Google三篇论文：GFS、MAPREDUCE、BIGTABLE相应的实现技术：HDFS、MapReduce、HBase    HDFS：解决大文件如何存储？如何快速的读写？如何容错？    Block（块）：把文件切成块，大小？1.* 64M 2.* 128M ：解决大文件如何存储及如何快速的读写，利用备份解决容错    DATANODE：存储数据    NAMENODE：存储数据的元使用：    shell    java api    第三方工具    50070 web

Python大数据为pyspark。

    依赖关系：        Pyspark：需要Python、Spark                        Spark：需要hadoop、jdk                            hadoop：需要jdk

大数据解决方案：    hadoop：速度慢：他的磁盘IO太多    spark：内存（DAG）计算方式    处理数据的形式为：离线处理，不可以实时处理实时框架：Apache Flink---Blink(阿里巴巴)        Apache Storm近似实时：1s（最低）

jps:    SparkSubmit          ：spark的批处理运行模式    DATANODE             ：存储数据    NAMENODE             ：存储数据的元，NameNode控制DataNode    SecondaryNameNode    ：Secondary NameNode是NameNode的备份    ResourceManager      ：负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）。    NodeManager          ：ResourceManager在每台机器上的代理，负责容器管理，并监控它们的资源使用情况，以及向ResourceManager/Scheduler提供资源使用报告    当输入start-dfs.sh时，jps列表中出现DATANODE、NAMENODE时，hdfs服务开启成功！也可以在防火墙关闭的前提下，在浏览器地址栏输入：ip：50070进行测试，若访问成功，即服务开启。    当输入start-yarn.sh时，jps列表中出现NodeManager、ResourceManager时，yarn服务开启成功！也可以在防火墙关闭的前提下，在浏览器地址栏输入：ip：8088进行测试，若访问成功，即服务开启

阅读全文

0 0