基于hadoop和hbase的youtube简单模拟4

来源:互联网 发布:三维码生成软件 编辑:程序博客网 时间:2024/04/26 00:30

当第一步和第二步的相关软件正确安装之后,下载这个项目->webbaike_fuse_0100,并将其拷贝到tomcat中的webapp目录下面。

打开该项目下的ipConfig.properties,

可以看到:

#我的主机在/etc/hosts中映射到127.0.0.1

ip=master

#连接hadoop的端口
port=9000

#hdfs中存储图片的目录
imagePath=hdfs/input/image

#hdfs中存储文档的目录
paperPath=hdfs/input/paper

#hdfs中存储视频的目录
videoPath=hdfs/input/video

#我的tomcat下该项目的位置,这里是绝对路径
webapp_path=/home/wangchen/soft/tomcat6/webapps/webbaike_fuse_0100/

#存放上传的文件的目录地址
tmp_image_dir=/home/wangchen/图片
tmp_video_dir=/home/wangchen/视频
tmp_paper_dir=/home/wangchen/文档

上面的位置需要改为你自己的地址。

 

在/src/util/TestHbase.java

这里面是一些测试hbase的方法,包括建表,删除表,插入数据,查询数据,当你启动了hadoop,hbase可以在这里简单对hbase操作。

比如建立我们需要的三张表:

public static void main(String[] args) throws IOException {
  TestHbase testHbase = new TestHbase();
  testHbase.createTable("video");
  testHbase.createTable("image");
  testHbase.createTable("paper");
 }

当hadoop,hbase启动成功后,在项目的webroot下面建立一个文件夹hdfs,并且使用fuse将hadoop的hdfs挂载到这个文件夹上,为什么要挂载到这个路径?因为tomcat访问资源的时候只是在该项目的路径,也有其他解决办法,但我试了觉得还是直接挂载这里很方便。

 

这个项目是一个小小的尝试,程序很简单,比较困难的是各种环境的配置,其实在这之前台湾东海大学就做了这么一个demo,只是他们的搜索是使用nutch,而这里直接是通过分词与hbase的结合,现在看来效果还不错,有兴趣的朋友可以搭一下看看。现在这个程序还是比较简单的,有兴趣的朋友可以在各个模块进行优化。

 

该项目的源码,我会在8月以后发上来。

台湾东海大学ppt:

http://download.csdn.net/detail/liufangzhe793528089/4460932

---------------------------------------------------------------------------------------------------------------------------------------------------------------

EasyHadoop 第五次聚会 - Hadoop性能调优和任务调度

讲座有: HDFS 运行流程和MapReduce配置调优 (刘凯毅 蓝讯)

Hadoop在人民搜索的应用 (何鹏 人民搜索)

Hadoop任务调度器 (董西城 腾讯)

基于Hadoop+Hbase的youtube简单模拟 (王晨 暴风影音)

时间:8月4日 (星期六) 下午 1:30--5:30 地点:待定

有兴趣的朋友可以加群 easyhadoop qq: 93086930

8月4号我们将举行一次聚会,已经举办了很多次了,都是关于hadoop的,很多业界的朋友都来分享了自己的一些想法,遇到的问题和一些经验,这次我将分享我的这个小小的作品,关于该项目源码,我在这次活动后会传上来,欢迎北京的朋友来参加,你可以分享你的想法,也可以听听其他朋友的想法!

我们是一群hadoop的爱好者,其中有一些作品已经开源,并在一些公司使用,加入我们吧!

 

原创粉丝点击