【老紫竹收藏+搜索系统】正式测试,完毕后发布1.0的源代码

来源:互联网 发布:淘宝能在手机上开店吗 编辑:程序博客网 时间:2024/04/29 14:33

 欢迎测试【老紫竹收藏+搜索系统】
http://www.laozizhu.com/search

系统介绍

  这个收藏+搜索的工具特点
1 完全基于人工收录,每个被收录的帖子都是我们认为不错的。
2 任何人都可以加入,别人也可以分享到你加入的内容
3 收录的内容,不是简单的抓取,而是只收录里面最有用的部分,比如主题,内容,作者,发言时间等
4 由于上一个的原因,所以不是任何网站都能加入,后面有目前支持的网站列表。
5 增加新的网站支持,需要写3个正则表达式,进行帖子内容的精确匹配
6 使用Lucene进行存储和查询
7 开源,可以在自己的机器上部署一个,拥有自己的收藏和搜索工具。
8 同样,由于对网站进行了控制,所以可以避免一些比不要的麻烦。呵呵。

目前支持的网站帖子包括:
http://topic.csdn.net/u
http://topic.csdn.net/t
http://blog.csdn.net
http://www.cnblogs.com
http://blog.sina.com.cn
http://hi.baidu.com
http://www.laozizhu.com
http://.+.blog.163.com
http://(www/.)?blogjava.net
http://.+.blog.51cto.com
http://www.java2000.net
http://.+.javaeye.com/blog
http://www.phpchina.com/html

用到的类库
---------
1 Spring 2.5
2 common-logging 1.1
3 paoding-analysis 2.0.4-beta
4 commons-dbcp-1.2.2.jar
5 mysql-connector-java-5.1.7-bin.jar
6 commons-pool-1.4.jar
7 Lucene.2.4.0.jar
8 Lucene-highlighter-2.4.0.jar


老紫竹网页采集系统(LzzSearch)变更历史
===================================
2009-02-XX v0.4
---------------
* 加入了WebContent目录,用来保存B/S程序
* 实现了加入收藏网页的功能
* 实现了搜索已经被收藏的网页的功能
* Store的search(String)方法增加了2个参数,search(String,int,int),为搜索结果的起始和数量
* 实现查看保存的内容的功能
* 使用LuceneStore进行存储,方便查询
* 修正 PageService读取数据时,丢失换行的BUG
* 增加对CSDN博客的解析(由于博客的主题可以随意变更,所以需要不断增加BODY匹配)
* 增加对老紫竹的家的解析
* 域名判断增加了正则匹配,比如163的博客域名
* 增加对163博客的解析
* Lucene的内部文档编号从0开始
* 增加对BlogJava.net的解析
* 增加对51cto的博客解析
* 修正了多个解析的正则表达式错误
* 增强了引擎的主机地址匹配功能
* 增加了对csdn归档帖子的解析
* 调整Store接口,增加SearchResult同时返回结果总数和列表
* 增加对Cnblogs的一个格式的支持
* Store接口的save功能返回boolean,表示是否保存成功
* 加入了 lucene-highlighter-2.4.0.jar
* 增加了搜索结果的高亮显示
* 增加了对JavaEye的博客支持
* 增强了发贴日期的正则解析,支持多个部分的拼接




2009-02-05 v0.3
---------------
* 增加了存储接口,可以将数据用不同的方式保存
* 确定系统里url是唯一的
* 调整 Lucene 实现存储接口
* 数据项增加了id属性,用来保存唯一的编号,比如lucene的docId,数据库的id主键等
* 增加基于数据库的存储实现(MySQL+JDBC),采用标准SQL
* 数据库存储使用了新的类库
commons-dbcp-1.2.2.jar
mysql-connector-java-5.1.7-bin.jar
commons-pool-1.4.jar
* 在源代码的sql目录下增加了MySQL 5.1.30 版的创建表格的SQL文件
* applicationContext.xml 增加了MySQL的数据源和对应的MySQL存储的配置
* 在demo里面增加了针对MySQL的测试例子
* 其它存储方式(比如文件存储)的实现,可以通过实现Store接口即可
* util下增加了一个DBUtil类,用来释放数据库资源



2009-02-03 v0.2
------------------------
* 增加了对Lucene 2.4 的支持,保存采集内容并对提供搜索和内容更新
* 使用了庖丁解牛做中文分词
* 修正了 StrTools 里面对于
不能正确文本替换的BUG
* 增加了专用的TestLucene的演示程序
* 更改test目录名为demo
* 的Lucene的索引目录在applicationContext.xml里面进行修改,默认为 d:/indexpaoding/lzzSearch
* 调整了项目目录,将需要的5个jar都放到了项目内部,无需单独下载了
* 注意:庖丁所需要的dic我已经放到了系统内部,在src/dic下面
并且更新了paroding-analysis.jar里面的 paoding-dic-home.properties文件的配置




2009-02-02 v0.1
------------------------
* 基于Spring的配置,可以轻松的增加采集的站点
* 采集点包含标题,作者,发布时间和内容四部分
* 采集后的内容由用户自行