了解hadoop与分布式系统
来源:互联网 发布:儿童票卧铺半价算法 编辑:程序博客网 时间:2024/06/03 16:43
Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;
而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。
HDFS为海量的数据提供了存储,
而MapReduce为海量的数据提供了计算。
分布式系统
分布式系统(distributed system)是建立在网络之上的软件系统。
正是因为软件的特性,所以分布式系统具有高度的内聚性和透明性。
因此,网络和分布式系统之间的区别更多的在于高层软件(特别是操作系统),而不是硬件。
内聚性是指每一个数据库分布节点高度自治,有本地的数据库管理系统(DBMS)。
透明性是指每一个数据库分布节点对用户的应用来说都是透明的,看不出是本地还是远程。
在分布式数据库系统中,用户感觉不到数据是分布的,即用户不须知道关系是否分割、有无副本、数据存于哪个站点以及事务在哪个站点上执行等。
分布式系统压力测试与性能测试
对于分布式系统而言,压力测试和性能测试非常重要。在进行压力测试和性能测试的时候,可能会碰到下面一些难点。
数据准备。
如何准备海量的测试数据并保证模拟数据的真实性?以一个分布式的文件系统为例,预先存入100GB的数据还是存入100TB的数据、存入的文件是大小基本一致差别不大还是各不相同甚至差异很大(例如,从几十字节至几十兆字节不等),这些因素对于分布式系统的性能影响是有很大差异的。另外,如果需要预先存入100TB的数据,若按每秒写入100MB数据来计算,写入100TB数据需要100×1024×1024/100=1048576秒=291.27小时=12天。我们是否能忍受这么长时间的数据准备工作?为了解决这样的问题,我们需要对系统架构设计进行深入分析,设计好测试场景,并提前进行测试用例的设计,以尽早开始准备测试数据。
性能或压力测试工具。
通常来说,分布式系统的测试需要开发一些测试工具来满足性能测试的需求。如果可以的话,建议这样的测试工具最好由测试工程师自己来实现,因为测试工程师更清楚自己的测试需求。当需要自己开发测试工具的时候,有两个关键问题需要重点关注:第一,一些关键数据的收集方式与计算将成为性能测试工具的关键,例如,TPS(每秒请求数)、Throughput(吞吐量)计算的准确性;第二,要保证性能测试工具的性能,如果工具本身的性能不好,将无法给予分布式系统足够强大的压力来进行测试。另外,当考虑到多并发(例如有10万客户端同时并发连接)时,如果性能测试工具在一台测试机器上只能运行50个或者更少的话,那么需要的测试机器数量也将会很庞大(例如2000台测试机),这个成本或许是许多公司不能承受的。因此,性能测试工具本身的性能必须要足够好才能满足需求、降低测试成本。
阅读全文
0 0
- 了解hadoop与分布式系统
- Hadoop完全分布式系统安装与配置
- 简单了解分布式系统
- 了解分布式系统
- 简单了解分布式系统
- 了解分布式数据库系统优势与劣势(转)
- Hadoop分布式系统 2
- hadoop分布式系统 3
- hadoop分布式系统
- 分布式系统概述(Hadoop与HBase的前生今世)
- 分布式系统概述(Hadoop与HBase的前生今世)
- 高效分布式计算系统之—Spark与Hadoop
- 安装伪分布式Hadoop系统与WordCount程序实验
- hadoop伪分布式集群搭建与安装(ubuntu系统)
- 分布式系统概述(Hadoop与HBase的前生今世)
- Hadoop与分布式开发
- 初步了解分布式与集群
- hadoop分布式系统优化分析
- 比较IOS开发中常用视图的四种切换方式
- 在IDEA中创建Java 9 modules(模块)的Hello World
- 在ubuntu上构建并配置Spark的IDE开发环境
- 王爽 《汇编语言》 读书笔记 十六 直接定址表
- IO复用
- 了解hadoop与分布式系统
- STL-set/multiset容器
- Qt 学习之路 2(12):菜单栏、工具栏和状态栏
- zookeeper status出现error的解决方案
- Unity_设计模式_观察者模式_08
- 在windows 7 安装 JDK1.7 配置环境变量(配置3个)
- HDU1201 水题
- GPS经纬度转化为百度地图/Google坐标及互转方案
- C++继承与派生