Nutch2.2.1的配置(使用MySQL作为数据存储)
来源:互联网 发布:北京赛车pk10平台源码 编辑:程序博客网 时间:2024/05/18 04:29
首先先从http://www.apache.org/dyn/closer.cgi/nutch/下载安装包
这里假定nutch的根目录为:${APACHE_NUTCH_HOME}
配置${APACHE_NUTCH_HOME}/ivy/ivy.xml,确保Nutch使用MySQL作为数据存储
将
改成
取消以下行的注释
取消以下的行注释使用Mysql作为gora存储
编辑${APACHE_NUTCH_HOME}/conf/gora.properties
添加以下代码激活MySQL的配置,
连接串url?后的参数中不指定字符集为utf8(characterEncoding=utf8),因为数据库表为utf8mb4,配置中不支持,若配置characterEncoding=utf8则会报错,若自动建表也可能出现字符集存储中文报错等问题,
导致错误情况详见:Nutch抓取错误java.sql.BatchUpdateException: Incorrect string value: '\xF2\xA3\xAC\xB7\xEF\xBF
最好手动建表,具体数据配置和建表过程详见: Nutch之MySQL数据库的配置
编辑 ${APACHE_NUTCH_HOME}/conf/gora-sql-mapping.xml ,将主键的长度由512改成767配置${APACHE_NUTCH_HOME}/conf/nutch-site.xml
在 http.agent.name字段下增加一个名字,可以是任意值但不能为空! 如果需要的话可以添加额外的语言(例如en为英语),同时也可以设置默认编码格式为utf-8
在命令行下输入
sudo apt-get install ant
安装配置ant在命令行界面使用cd切换到nutch的根目录
可以在终端中输入以下指令开始你的第一个爬虫工作
Nutch 2.2使用以下命令开始爬虫,设置线程数为30
mysql -u xxxxx -p
use nutch;
SELECT * FROM nutch.webpage;
翻译源:http://wiki.apache.org/nutch/#Nutch_2.X_tutorial.28s.29
阅读全文
0 0
- Nutch2.2.1的配置(使用MySQL作为数据存储)
- Nutch2.2.1配置mysql存储
- Nutch的配置(使用MySQL作为数据存储)
- entityframework Identity codefirst 使用MySql作为数据存储的笔记
- Ubuntu12.04+Nutch2.2.1+MySQL 配置笔记
- nutch2.1在windows平台上使用eclipsedebug 存储在mysql的搭建过程
- HIVE 安装系列(3)配置HIVE 使用Mysql作为元数据的数据库
- Nutch2.2.1+Eclipse+Mysql
- nutch2.0 配置mysql数据库
- Nutch2.2.1之MySQL数据库的配置和建表webpage语句
- 大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置(上集)
- hive元数据存储使用mysql配置
- nutch2.2.1+mysql集成教程
- Wilco的Windows7环境下MyEclipse+Nutch2.2.1+Mysql搭建
- hadoop2.7.1+nutch2.3+mongodb+solr5.2.1的单机配置
- sae中使用mysql作为session存储
- sae中使用mysql作为session存储
- Hive使用mysql作为存储引擎
- minSdkVersion、targetSdkVersion、compileSdkVersion三者的作用解析
- Linux下搭建Tomcat+Nginx+Redis
- 笨方法学习Python-习题31: 作出决定
- 10月25日 c语言 输入星星图形5 倒立的等腰三角形
- [从jQuery看JavaScript]-匿名函数与闭包(Anonymous Function and Closure)
- Nutch2.2.1的配置(使用MySQL作为数据存储)
- 【java】IO详解之BIO
- 核函数在机器学习上的
- 改造二叉树(lis+中序遍历)
- Python与机器学习之常用的Numpy操作
- struts2 拦截器
- javascript高级系列之slice()与substring()
- Hibernate Mapping 加载慢,时常连接超时问题
- angular用户列表信息