使用teragen产生数据
来源:互联网 发布:json数组格式 编辑:程序博客网 时间:2024/06/15 02:14
转载地址:http://www.opstool.com/article/249
使用Teragen来产生数据,示例如下:
hadoop jar hadoop-*-examples.jar teragen 参数1 参数2
teragen的参数解释:
- 参数1:表示要产生的数据的行数。Teragen每行数据的大小是100B。
要产生1T的数据,需要的行数=102410241024*1024/100=10995116277行 - 参数2 : 产生的数据放置的文件夹地址
默认的teragen的启动的map数比较少,只有2个,如果要指定map数可以加-Dmapred.map.tasks=map数的方式。比如我们来产生1T的数据
hadoop jar hadoop-*-examples.jar teragen -Dmapred.map.tasks=100 10995116277 terasort/1T-input
ls一下目录是否产出
hadoop@myhost $ hadoop fs -ls /user/hadoop/terasort/Found 1 itemsdrwxr-xr-x - hadoop cug-admin 0 2013-07-13 12:49 /user/hadoop/terasort/1T-input
使用Terasort排序
使用terasort对刚才使用teragen产生的数据进行排序,排序结果输出到/user/hadoop/terasort/1T-output。
默认的reduce数目是1,会导致任务跑得非常慢。通过-Dmapred.reduce.tasks指定reduce数目,这里我们设置50个
hadoop jar hadoop-*-examples.jar terasort -Dmapred.reduce.tasks=50 \/user/hadoop/terasort/1T-input /user/hadoop/terasort/1T-output
启动Teragen之后,会提交mapre reduce任务来,产生TeraSort需要的数据
使用Teravalidate 进行验证
使用TeraValidate 对Terasort的结果进行验证:
hadoop jar hadoop-*-examples.jar teravalidate /user/hadoop/terasort/1T-output/user/hadoop/terasort/1T-validate
阅读全文
0 0
- 使用teragen产生数据
- TeraGen例子疑惑
- Scala使用withFilter减少中间数据产生
- 使用NEWID()搭配UniqueIdentifier数据产生全球唯一标识码
- jsp 产生json数据
- 数据帧的产生
- acm之产生数据
- 随机产生【10-50】的整形数据,使用集合的方式对数据存储并统计相同数据出现次数
- 使用sys_guid产生随机数
- 使用autotools产生makefile
- butterknife使用产生nullable
- 使用lock 产生死锁
- 使用synchronized产生死锁
- 使用服务器端的XSL于早期递送:预先产生经常访问的数据驱动的网页
- 使用SQL产生BCP命令快速备份/恢复你所有数据
- 使用查询结果产生的数据批量执行update 或add sql语句
- 使用AspectJ监控测试用例执行,无法产生监控数据的一种解决方案
- ReQuest: 使用问答数据产生实体关系抽取的间接监督
- 大数加法
- 模拟电路学习总结
- 【总结】Unity:代码动态加载Prefab预设体
- Linux tomcat关闭 出现 java.net.ConnectException: Connection refused
- MFC更改环境目录可执行文件目录下继承的值
- 使用teragen产生数据
- 【Axure 实战】基础操作记录+oa系统表单表格类原型
- fake-useragent,python爬虫伪装请求头
- Spring Boot学习(四)之web开发渲染页面 -- Thymeleaf
- 矩阵外积与内积
- QTP触发了场景恢复,但是没有重复当前步骤并继续
- 2017双十一复盘--开发经验总结
- 关于内部函数与外部函数
- 1004. 成绩排名 (20)