曲谱搜索进展 及 python的轻量级爬虫框架

来源:互联网 发布:mac axure 保存为图片 编辑:程序博客网 时间:2024/05/16 20:30

最近开始正式整我的吉他谱搜索引擎,搭了一个很轻量级但是个人觉得比较好用的爬虫框架,以及一个非常简单的搜索页面。

 

另外花了一点钱将域名注册了下来,可以试试 http://www.needtab.com

 

现在上面放的是这个最简单的版本,接下来将在功能上及美工方面逐步细化。并在短期内推广上线。

 

 

这里不过多的讨论曲谱搜索引擎了,我将我写的轻量级爬虫框架开源到了网上,希望能对需要的人有所参考帮助。

 

项目开源地址:http://code.google.com/p/guitartabgripper/

 

 

你能使用SVN获取到源码

svn checkout http://guitartabgripper.googlecode.com/svn/trunk/ guitartabgripper-read-only

 

 

采用python2.6开发,目录结构如下:

 

 

src下

BaseGripper 爬虫基类,

DBFactory 数据库适配器工厂,

GuitarTabGripperDB 吉他谱爬虫数据库适配器,

Main 任务启动入口

page_grip_helper下放的是通用工具类,包括DB 数据库连接模块,PageGripper页面抓取模块,Tools工具集

Grippers下是我的具体爬虫实现,可以看一下,里面基本都是具体业务相关

 

具体挖掘方法可以参考我的整个实现,

如果需要用这个框架编写其他类型的数据挖掘工具(比如视频爬虫、论坛帖爬虫),只需要修改一些业务层面的(如src下的若干适配、Grippers下的具体爬虫实现)即可。

原创粉丝点击