整理的一些关于nutch分布式的配置

来源:互联网 发布:网页美工教学视频 编辑:程序博客网 时间:2024/05/16 12:41

首先需要新建filesystem文件夹  mkdir filesystem

 在nutch的conf里面找到hadoop-env.sh进行编辑:

export HADOOP_HOME=home/admin5/nutch
export JAVA_HOME=/home/admin5/usr/java/jdk1.5.0_06  //根据具体的环境进行设置
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves
 设置ssh免密码验证 ssh-keygen -t rsa

 cd /home/.ssh
cp id_rsa.pub authorized_keys

scp /home/.ssh/authorized_keys nutch@admin5:/home/.ssh/authorized_keys

把nutchbin目录下的所有文件权限改成777

bin/nutch
bin/hadoop
bin/hadoop dfs

执行上面的三个命令,测试配置是否正确

配置hadoop-site.xml 文件确定主机端口号及存储的位置

bin/hadoop namenode -format  节点的格式化

bin/start-all.sh  启动所有的服务

bin/stop-all.sh 停止所有的服务

bin/hadoop dfs -put urls urls  把url放进dfs系统中

bin/hadoop dfs -rmr urls  删除dfs中的文件

bin/hadoop dfs -ls 可以使用此命令查看dfs

之后就可以使用crawl 进行抓取了

原创粉丝点击