结构化数据加载性能
来源:互联网 发布:剑三捏脸数据截图 编辑:程序博客网 时间:2024/06/08 04:51
影响结构化数据加载的性能,主要包括三个方面:
其一,数据结构化的开销;
其二,额外操作(日志、索引等)引入的开销;
其三,磁盘I/O 的数据量。
首先,数据结构化对于数据加载性能的影响,主要是体现在写模式(Write Schema)和读模式(Read Schema)方式的差异。写模式是传统数据库所采用的方式,在数据加载阶段将文本方式存储的数据转换成具有严格模式(Schema)定义的结构化数据进行存储。而读模式则是MapReduce 处理文本方式存储的数据所采用的方式:数据并未经过加载阶段,而是以文本文件的方式直接上传到HDFS;MapReduce 在分析处理这些数据时,需要根据用户提供的模式定义对文本数据进行解析。写模式和读模式的最大区别在于数据结构化是发生在数据加载阶段还是查询阶段。在写模式下,数据通常在加载阶段从文本数据解析成指定数据类型的结构化数据,然后将该结构化数据写到内存中的指定数据页(Page),待该数据页写满之后,再写回文件中。相对于读模式,写模式在数据加载阶段引入额外的开销,但是却提高了后续查询访问的性能。其次,额外操作引入的开销。这些额外的开销主要包括严格一致性引入的事务操作开销和创建索引这类辅助结构的开销等等。
最后,数据加载的主要性能瓶颈在于磁盘I/O。尤其在采用多复本存储容错机制的
HDFS 上,多复本同步写存在较大的磁盘I/O 代价,影响数据加载的性能。
- 结构化数据加载性能
- 数据加载的性能测试
- Trafodion数据加载性能测试
- Solr使用DataImportHandler(DIH)工具加载结构化数据
- 关于tableview 加载数据,性能优化
- Trafodion 性能优化之加载数据
- WPF DataGrid 性能加载大数据
- 无刷新加载树结构数据
- easyui中TreeGrid大量数据数据加载之性能优化。
- 结构化数据,非结构化数据
- JTable从模型加载数据,可用于动态数据加载,提高性能
- 非结构化数据
- 半结构化数据
- 数据存储《图片加载的性能优化》来自印象笔记
- 解析无限级树结构,加载dhtmlxTree数据
- 【java基础 5】树形结构数据加载的思考
- 非结构化数据库性能文章汇总
- 结构化、半结构化和非结构化数据
- 双缓冲队列尝试
- c库函数对文件的操作函数
- 在pcDuino上刷了AndDroid,Ubuntu,XBMC
- 使用rman backup命令创建备份系列之增量备份
- UVa:993 Product of digits
- 结构化数据加载性能
- HDU4472-第37届ACM/ICPC成都现场赛I题
- Oracle 12c 新特性之 Multitenant Architecture (二)
- VS2008 C++ 项目怎样添加“依赖”、“库目录”和“包含目录”
- hdu 1863 畅通工程
- 复制drawable 中的文件(图片或者数据库都可以)到sd卡
- centOS 6.4 (64bit) 安装 Python 2.7.5
- HDU1240:Asteroids!
- 题目1501:最大连续子序列乘积