nutch 2.2.1 InjectorJob 类
来源:互联网 发布:windows.old能不能删除 编辑:程序博客网 时间:2024/06/07 01:38
InjectorJob 类主要是从文件中读取URL,对URL进行处理后,写入到webpage表中。
UrlMapper 类
setup 方法设置 爬虫抓取的时间周期,是一个月;
map 方法将URL 注册到表中;
Map<String,Object> run(Map<String,Object> args) 启动函数
// mapper方法,从文件中解析出url,写入数据库
currentJob.setMapperClass(UrlMapper.class);
currentJob.setMapOutputKeyClass(String.class);
// map 的输出为WebPage,它是用Gora compile生成的,可以通过Gora把它映射到不同的数据库中,
currentJob.setMapOutputValueClass(WebPage.class);
// 输出到GoraOutputFormat
currentJob.setOutputFormatClass(GoraOutputFormat.class);
0 0
- nutch 2.2.1 InjectorJob 类
- 【Nutch】InjectorJob
- 【Nutch】InjectorJob
- nutch-2.0源码之InjectorJob
- Nutch-2.2.1学习之一Nutch简介
- Nutch-2.2.1----Nutch过滤URL实践
- Nutch-2.2.1学习之一Nutch简介
- Nutch 快速入门(Nutch 2.2.1)
- Nutch 快速入门(Nutch 2.2.1)
- Nutch 快速入门(Nutch 2.2.1)
- Nutch-2.2.1学习之三Nutch配置文件
- Nutch-2.2.1学习之九Nutch过滤URL实践
- Nutch-2.2.1----过滤抓取数据
- 转:Nutch-2.2.1脚本分析
- Nutch2 之 InjectorJob
- InjectorJob架构及流程
- Nutch-2.2.1学习之二编译部署Nutch及常见问题
- Nutch-2.2.1学习之四Nutch与Hbase结合使用时常见问题
- Android 4.4 Graphic Architecture
- LeetCode(12)Integer to Roman
- 后缀表达式计算
- First Missing Positive
- R 学习资源汇总
- nutch 2.2.1 InjectorJob 类
- Android Studio系列教程一--下载与安装
- javascript高级编程技术 第三章
- mybatis 懒加载
- CodeForces 462C Appleman and Toastman 贪心
- jvm扫盲
- Android Bitmap大量使用不产生OOM之“加载大图片资源优化”
- 虚拟化项目之运维实践 5
- 嵌入式linux开发——要掌握的资料汇总