曲谱搜索进展 及 python的轻量级爬虫框架
来源:互联网 发布:mac axure 保存为图片 编辑:程序博客网 时间:2024/05/16 20:30
最近开始正式整我的吉他谱搜索引擎,搭了一个很轻量级但是个人觉得比较好用的爬虫框架,以及一个非常简单的搜索页面。
另外花了一点钱将域名注册了下来,可以试试 http://www.needtab.com
现在上面放的是这个最简单的版本,接下来将在功能上及美工方面逐步细化。并在短期内推广上线。
这里不过多的讨论曲谱搜索引擎了,我将我写的轻量级爬虫框架开源到了网上,希望能对需要的人有所参考帮助。
项目开源地址:http://code.google.com/p/guitartabgripper/
你能使用SVN获取到源码
svn checkout http://guitartabgripper.googlecode.com/svn/trunk/ guitartabgripper-read-only
采用python2.6开发,目录结构如下:
src下
BaseGripper 爬虫基类,
DBFactory 数据库适配器工厂,
GuitarTabGripperDB 吉他谱爬虫数据库适配器,
Main 任务启动入口
page_grip_helper下放的是通用工具类,包括DB 数据库连接模块,PageGripper页面抓取模块,Tools工具集
Grippers下是我的具体爬虫实现,可以看一下,里面基本都是具体业务相关
具体挖掘方法可以参考我的整个实现,
如果需要用这个框架编写其他类型的数据挖掘工具(比如视频爬虫、论坛帖爬虫),只需要修改一些业务层面的(如src下的若干适配、Grippers下的具体爬虫实现)即可。
- 曲谱搜索进展 及 python的轻量级爬虫框架
- python轻量级爬虫的编写
- Python 轻量级爬虫
- <Do it! Python> 轻量级爬虫
- python轻量级爬虫学习笔记 之 urllib的应用
- Scrapy:Python的爬虫框架
- Python的爬虫框架 Scrapy
- Scrapy:Python的爬虫框架
- Python 轻量级Web框架
- 超轻量级全文搜索框架的设计和实现 (1)
- Python轻量级爬虫教程-网页下载器
- Python轻量级爬虫教程-网页解析器
- python任务调度轻量级框架
- python几个轻量级web框架
- Python.Scrapy -- Python的抓取框架/爬虫框架
- Python爬虫抓取框架:Scrapy的架构
- Python网络爬虫框架scrapy的学习
- Scrapy:Python的爬虫框架----原理介绍
- Linux之下MySQL安装的三种方案的比较
- 排序算法--分类
- lint
- in,on at 用法
- 未来互联网四大趋势:无线、多设备、多媒体、社会媒体
- 曲谱搜索进展 及 python的轻量级爬虫框架
- 判断数据库连接状态
- Android 2.3 NDK的新特性
- Android的多媒体框架OpenCore(PacketVideo)介绍
- java 定时器使用
- 主流报表制作工具之王者争夺战:功能大PK系列之参数定义
- 从3个科技公司里学到的57条经验
- Android视频采集
- Command 命令模式