hadoop对专利引用数据进行处理,输出被引用的专利
来源:互联网 发布:中保险网络大学ii 编辑:程序博客网 时间:2024/06/01 10:43
对有如下专利数据
进行处理,把每个专利被引用的专利输出,代码如下
package com.hadoop.test;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred.FileInputFormat;import org.apache.hadoop.mapred.FileOutputFormat;import org.apache.hadoop.mapred.JobClient;import org.apache.hadoop.mapred.JobConf;import org.apache.hadoop.mapred.KeyValueTextInputFormat;import org.apache.hadoop.mapred.MapReduceBase;import org.apache.hadoop.mapred.Mapper;import org.apache.hadoop.mapred.OutputCollector;import org.apache.hadoop.mapred.Reducer;import org.apache.hadoop.mapred.Reporter;import org.apache.hadoop.mapred.TextOutputFormat;import org.apache.hadoop.util.Tool;import org.apache.hadoop.util.ToolRunner;/** * 对专利数据集进行处理,一个专利输出所有的引用的专利 * * @author root 2014-12-28 */public class MyJob extends Configured implements Tool {public static class MapClass extends MapReduceBase implementsMapper<Text, Text, Text, Text> {@Overridepublic void map(Text key, Text value,OutputCollector<Text, Text> output, Reporter reporter)throws IOException {// TODO Auto-generated method stuboutput.collect(value, key);}}public static class Reduce extends MapReduceBase implementsReducer<Text, Text, Text, Text> {@Overridepublic void reduce(Text key, Iterator<Text> values,OutputCollector<Text, Text> output, Reporter reduce)throws IOException {// TODO Auto-generated method stubString csv = "";while (values.hasNext()) {if (csv.length() > 0)csv += ",";csv += values.next().toString();}output.collect(key, new Text(csv));}}@Overridepublic int run(String[] arg0) throws Exception {// TODO Auto-generated method stubConfiguration conf = getConf();JobConf job = new JobConf(conf, MyJob.class);// 输入输出路径Path in = new Path(arg0[0]);Path out = new Path(arg0[1]);FileInputFormat.setInputPaths(job, in);FileOutputFormat.setOutputPath(job, out);// 设置job的名字job.setJobName("MyJob");job.setMapperClass(MapClass.class);job.setReducerClass(Reduce.class);//设置K1,V1均为Text类型job.setInputFormat(KeyValueTextInputFormat.class);//设置输出到文本中的类型job.setOutputFormat(TextOutputFormat.class);//指定K2类型job.setOutputKeyClass(Text.class);//指定V2类型job.setOutputValueClass(Text.class);//对每一行以逗号分割job.set("key.value.separator.in.input.line", ",");JobClient.runJob(job);return 0;}public static void main(String[] args) throws Exception {// 定义本地输入文件路径String inputPath = "/home/znb/test/cite75_99.txt";// 定义输出的HDFS文件路径String outputPath = "hdfs://znb:9000/output/MyJob/";String[] args1 = { inputPath, outputPath };int res = ToolRunner.run(new Configuration(), new MyJob(), args1);System.exit(res);}}
输出的结果为
0 0
- hadoop对专利引用数据进行处理,输出被引用的专利
- hadoop对专利数据进行处理,输出引用次数以及该引用次数的专利总数
- hadoop对专利数据进行处理,输出专利号以及引用次数
- Hadoop之MapReduce程序应用一读取专利引用数据集并对它进行倒排
- Hadoop 实战之分析专利引用数据集(一)
- Hadoop 实战之分析专利引用数据集(一)
- Hadoop 实战之分析专利引用数据集(二)
- Hadoop 实战之分析专利引用数据集(三)
- Hadoop 实战之分析专利引用数据集(二)
- Hadoop 实战之分析专利引用数据集(三)
- 计算不同引用次数的专利数目
- 我对专利的看法
- 专利
- 专利
- 专利
- 专利
- 专利
- 专利
- 九度OJ 1069 查找学生信息 (模拟)
- Linux下DISPLAY环境变量的作用
- 第十八周OJ项目六用数字造数字二
- struts+hibernate权限管理系统
- 仿QQ黑屏,锁屏,程序切换之后的手势密码锁定,加强版
- hadoop对专利引用数据进行处理,输出被引用的专利
- 周鼎——《自白书》
- google chrome调试
- 1016. 部分A+B (15)
- 互联网思维,改变未来的武器
- HDU - 1166 - 敌兵布阵 (树状数组 or 线段树)
- 递增数组元素的折半查找
- POJ1659 Frogs' Neighborhood ACM解题报告(图论基础 邻接矩阵)
- 01背包 页面布局