仿scrapy的爬虫框架 (python3.5以上模块化,需要支持async/await语法)
来源:互联网 发布:ubuntu离线安装软件包 编辑:程序博客网 时间:2024/06/02 04:48
不知道是不是代码过多导致的,如果把代码放进code标签内提交以后直接进入500页面,所以就不贴代码了
传送门:https://github.com/zjl1110/WebCrawler
目录结构:
WebCrawler|----common(通用模块)
|----__init__.py
|----email_manager.py(邮件管理)
|----error_code.py(错误码管理)
|----html_manager.py(html页面的redis管理)
|----item_manager.py(模仿scrapy的Field等类)
|----log_manager.py(日志管理)
|----random_headers.py(headers管理)
|----redis_manager.py(redis管理)
|----request_common.py(request通用函数)
|----request_manager.py(request管理和response管理)
|----url_manager.py(url的redis管理)
|----spiders(爬虫实现)
|----__init__.py
|----xxx.py(爬虫例子)
|----items.py(模仿scrapy的items)
|----pipelines.py(模仿scrapy的Pipeline)
|----run.py(入口函数)
|----setting.py(配置文件)
python版本3.5或者以上(不然不支持async/await语法)
需要安装mongodb,redis
需要的第三方库
redis
aiohttp
lxml
pymongo
只需要在spiders下写爬虫,有点类似scrapy,因为格式是照着scrapy的格式仿写的
按照spiders下的例子仿写就可以了解大致用法
基本熟悉写法以后就可以专注写爬虫,周边模块已经写得差不多,利用redis模块也可以扩展成简单的分布式,因为只花了两天写的,还会碰到一些问题,可以交流,我在工作中碰到问题也会及时修改这里的代码,让代码的适应性更强一点,应用更广泛
这个算是一个爬虫框架吗?????
阅读全文
0 0
- 仿scrapy的爬虫框架 (python3.5以上模块化,需要支持async/await语法)
- python3.5以上 爬虫 (模块化)
- 爬取博客详细页面的标题(python3.5以上,async/await,aiohttp)
- 使nodejs服务端支持async/await语法
- Python3网络爬虫:初识Scrapy爬虫框架
- Windows python3下安装scrapy爬虫框架的完美方案
- Python3.6安装Scrapy爬虫框架
- Python3网络爬虫框架库scrapy
- 异步爬虫: async/await 与 aiohttp的使用,以及例子
- window下面安装scrapy爬虫框架(python3.6+scrapy)
- 透过 V8 引擎看 ES2015 语法 async\/await 的本质
- ES7的Async/Await
- ES7的Async/Await
- ES7的Async/Await
- [Python][Scrapy 框架] Python3 Scrapy的安装
- [Python][Scrapy 框架] Python3 Scrapy的安装
- Scrapy:Python的爬虫框架
- Python的爬虫框架 Scrapy
- 【备忘】微信小程序从入门到实践视频教程
- jeesite使用心得(二)
- 几种常见的设计模式之 python 实现
- Nginx配置文件及代理服务器设置
- SQL布尔型盲注思路分析(入门必看)
- 仿scrapy的爬虫框架 (python3.5以上模块化,需要支持async/await语法)
- 查看Linux 是Red Hat,CentOS还是ubuntu
- Java 创建多线程的第二种方式
- 空间应用--固态硬盘的极限挑战
- Linux安装软件的几种方法
- OpenJudge百炼-2799-浮点数格式-C语言-字符串处理
- sizeof的用法
- 网页预览修改提交EXCEL表格
- F