关于mapreduce解析xml的方法
来源:互联网 发布:cpk计算软件 编辑:程序博客网 时间:2024/06/07 04:56
mapreduce的TextInputFormat很方便的处理行行的文本,但遇到xml的时候就很纠结了,曾经采用</property>分隔数据重写FileInputFormat(网上有资料),可以解决此问题,但会获取很多噪音数据。
后来想到以起始<property>结束</property>来获取数据,重写FileInputFormat没有这个技术能力,呵呵。
后来一直找资料,看了一篇http://www.linezing.com/blog/?p=489,可以借助mahout工程的XmlInputFormat.java很方便的解决问题。
根据mahout的版本有适宜hadoop0.20以前版本的XmlInputFormat,新版本适宜0.20以后的版本。从官网上下mahout包源码即可。
后来想到以起始<property>结束</property>来获取数据,重写FileInputFormat没有这个技术能力,呵呵。
后来一直找资料,看了一篇http://www.linezing.com/blog/?p=489,可以借助mahout工程的XmlInputFormat.java很方便的解决问题。
根据mahout的版本有适宜hadoop0.20以前版本的XmlInputFormat,新版本适宜0.20以后的版本。从官网上下mahout包源码即可。
0 0
- 关于mapreduce解析xml的方法
- 关于xml的解析方法
- 关于XML解析的几个实用方法
- 关于XML文件解析的学习软件PULL解析方法
- 关于XML的解析
- 关于XML的解析
- 关于XML的解析
- XML的解析方法
- 解析xml的方法
- xml的解析方法
- 解析XML的方法
- 解析XML的方法
- XML解析的方法
- 解析XML的方法
- Android 关于XML的解析和添加方法
- 关于iOS开发中XML解析的方法
- java里面4种关于xml的解析方法
- 关于XML解析的测试
- javascript笔试题(8) 继承
- linux下 部署单个resin项目
- PyGobject(八十四)GdkPixbuf.Pixbuf
- 如何在mapreduce方法中获取当前使用文件(get file name)
- 解决Plugin is too old,please update to a more recent version, or set ANDROID_DAILY_OVERRIDE environm
- 关于mapreduce解析xml的方法
- C语言今日函数总结
- 最大子列
- 两个有序list合并
- ArcGIS Server本地化
- 三线程联系输出abc
- Android 多进程和多线程
- 最短编辑距离
- 设计模式-起点