整理的一些关于nutch分布式的配置
来源:互联网 发布:网页美工教学视频 编辑:程序博客网 时间:2024/05/16 12:41
首先需要新建filesystem文件夹 mkdir filesystem
在nutch的conf里面找到hadoop-env.sh进行编辑:
export HADOOP_HOME=home/admin5/nutch
export JAVA_HOME=/home/admin5/usr/java/jdk1.5.0_06 //根据具体的环境进行设置
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves
设置ssh免密码验证 ssh-keygen -t rsa
cd /home/.ssh
cp id_rsa.pub authorized_keys
scp /home/.ssh/authorized_keys nutch@admin5:/home/.ssh/authorized_keys
把nutchbin目录下的所有文件权限改成777
bin/nutch
bin/hadoop
bin/hadoop dfs
执行上面的三个命令,测试配置是否正确
配置hadoop-site.xml 文件确定主机端口号及存储的位置
bin/hadoop namenode -format 节点的格式化
bin/start-all.sh 启动所有的服务
bin/stop-all.sh 停止所有的服务
bin/hadoop dfs -put urls urls 把url放进dfs系统中
bin/hadoop dfs -rmr urls 删除dfs中的文件
bin/hadoop dfs -ls 可以使用此命令查看dfs
之后就可以使用crawl 进行抓取了
- 整理的一些关于nutch分布式的配置
- 关于Nutch配置的整理
- nutch的一些基础整理
- Linux下的Nutch分布式配置与安装
- Nutch的一些分析
- 一些关于分布式的启发
- Nutch 的配置
- nutch elipse 配置的一些事项
- Nutch 0.9分布式配置
- Nutch分布式检索配置
- Nutch分布式检索配置
- nutch 分布式配置
- 关于CVS的一些整理
- 关于ttServer的一些整理
- 一些关于虚拟机的整理
- 关于NavigationController的一些整理
- 关于initrd的一些整理
- 关于排序的一些整理
- linux 启用root用户登录
- group by的使用
- 碰到一个关于搜索引擎优化的问题
- 质谱网络资源
- 四元数(Quaternions)
- 整理的一些关于nutch分布式的配置
- How to Setup Nutch and Hadoop
- Dreamweaver 中的主要事件
- FormsAuthentication.RedirectFromLoginPage
- 求二维形状渐变的算法
- mass spectrometry
- Downloading and installing Hadoop
- aspjpeg 打水印
- 在GridView中的RowDataBound方法中双击属性一个使用Session传值的弊端