著名java开源搜索引擎bddbot的简单使用——测试报告

来源:互联网 发布:科比0607赛季数据 编辑:程序博客网 时间:2024/06/05 06:31

 

一、            编译

1.   安装JDKjava开发工具包),这步环境变量设置比较麻烦(例如我用的是jdk6.0_13),在系统属性->高级->环境变量中,设置如下三个变量(如果没有的话,则新建一个该名称的变量)

1)   JAVA_HOME,添加值:D:/Program Files/Java/jdk1.6.0_13;//如果只有一个变量值,不需要加“;”号。

2)   ClassPath,添加值:.;%JAVA_HOME%/lib/tools.jar;

3)   Path,添加值:%JAVA_HOME%/bin;

2.   将文档bddbot.zip解压到bddbot目录下(以bddhot为根目录,如放在E盘下,则为E:/bddbot),bddbot目录下有bddsearchdb两个子目录。

3.   修改bdd/search/EnginePrefs.javaString email_address = "Felomeng@live.cn"; // 改成自己的电邮

4.   打开开始->运行->输入cmd->回车,在命令行中,先转到目录bddhot下,再执行命令javac bdd/search/EnginePrefs.java(其余的所有类文件也都已经编译,如果没有编译的话到相应文件夹下执行命令javac *.java即可)

5.   searchdb文件夹下两文件rules.txturls.txt的用法,顾名思义:
rules是对urls的约束条件,有两种用法:includeexclude,如include http://grs.pku.edu.cn/zs/,就是下载http://grs.pku.edu.cn/zs/开头的所有网页。urls是初始爬取的页面地址列表,每行一个地址,系统在这个地方不完善,对.html.htm结尾的网页(即使用全名的网页)效果较好。#表示注释,即没有作用。

二、            爬取

1.         配置rules.txt值为include http://grs.pku.edu.cn/zs/

2.         配置urls值为http://grs.pku.edu.cn/zs/zs_news.html

3.         命令行中执行java bdd.search.Monitor(注意,命令行当前目录应为bddbot)打开图形界面

1 主界面

其中

1)         Queries栏目是检索所用关键字的记录;Current Url是当前正在处理的网页;

2)         Total Bytes表示已经下载的内容的流量;

3)         Processed是已经处理过的网页地址列表;

4)         Errors是出错的网页地址列表,在命令窗体中有详细的错误记录。

4.         点击start crawler,该按钮变成不可用状态,开始爬取。爬取完成后,该按钮恢复到可用状态。

2 正在爬取

 

3 爬取完成

其中Queries里面记录的是汉字内容,显示成了乱码,对汉语支持不完善。命令窗体的错误记录为:

java.net.MalformedURLException: unknown protocol: javascript

        at java.net.URL.<init>(URL.java:574)

        at java.net.URL.<init>(URL.java:464)

        at bdd.search.spider.HTMLLinkExtractor.analyzeAnchor(HTMLLinkExtractor.j

ava:76)

        at bdd.search.spider.HTMLLinkExtractor.analyze(HTMLLinkExtractor.java:63

)

        at bdd.search.spider.HTMLLinkExtractor.<init>(HTMLLinkExtractor.java:43)

 

        at bdd.search.spider.URLStatus.getLinkExtractor(URLStatus.java:152)

        at bdd.search.spider.Indexer.run(Indexer.java:93)

5.        本次下载后主索引文件(在E:/bddbot/searchdb/main.db)大小为1.34M,用时共约20分钟。

三、            搜索测试

1.   检索:
<form action="
http://222.29.124.166:8001/query" method=GET>
<input type="text" name="words" value="" size=45>
<input type="submit" value="Search">
</form>
把上面见容另存为html文档,其中222.29.124.166改成本机地址即可使用,一般windows下测试可以直接使用localhost(当然,可以在此基础上在界面上面多添加一些元素),如图:

4 搜索界面

2.   然后用浏览器打开它,在开启Monitor的情况下(注意,要求已经成功爬取完成一部分语料),输入关键字进行搜索。

5 一个搜索结果

 

 

附:bddbot源码及其文档、bddbot测试报告(使用方法) Word版。

 

原创粉丝点击