程序博客网 > ubuntu离线安装软件包

仿scrapy的爬虫框架 (python3.5以上模块化,需要支持async/await语法)

来源：互联网发布：ubuntu离线安装软件包编辑：程序博客网时间：2024/06/02 04:48

不知道是不是代码过多导致的，如果把代码放进code标签内提交以后直接进入500页面，所以就不贴代码了

传送门：https://github.com/zjl1110/WebCrawler

目录结构：

WebCrawler
    |----common(通用模块)
        |----__init__.py
        |----email_manager.py(邮件管理)
        |----error_code.py(错误码管理)
        |----html_manager.py(html页面的redis管理)
        |----item_manager.py(模仿scrapy的Field等类)
        |----log_manager.py(日志管理)
        |----random_headers.py(headers管理)
        |----redis_manager.py(redis管理)
        |----request_common.py(request通用函数)
        |----request_manager.py(request管理和response管理)
        |----url_manager.py(url的redis管理)
    |----spiders(爬虫实现)
        |----__init__.py
        |----xxx.py(爬虫例子)
    |----items.py(模仿scrapy的items)
    |----pipelines.py(模仿scrapy的Pipeline)
    |----run.py(入口函数)
    |----setting.py(配置文件)

python版本3.5或者以上(不然不支持async/await语法)
需要安装mongodb,redis
需要的第三方库
redis
aiohttp
lxml

pymongo

只需要在spiders下写爬虫,有点类似scrapy,因为格式是照着scrapy的格式仿写的
按照spiders下的例子仿写就可以了解大致用法

基本熟悉写法以后就可以专注写爬虫，周边模块已经写得差不多，利用redis模块也可以扩展成简单的分布式，因为只花了两天写的，还会碰到一些问题，可以交流，我在工作中碰到问题也会及时修改这里的代码，让代码的适应性更强一点，应用更广泛

这个算是一个爬虫框架吗？？？？？

阅读全文

0 0

ubuntu离线安装软件包

ubuntu离线安装软件包

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子我听闻你始终一个人一个人听蕊希听君一席话胜读十年书一只想飞的猫免费听读幼儿睡前听故事大一初入学她听哥哥交代听一段过往环绕鲸云强效催眠曲一听入睡听一听耳机完好无损却又一边听不见户一 ,一, 一胎两宝高冷老公呆萌妻呆哥千里送第一第二部放进冰箱呆上一天 2018呆萌卡通一家三口呆萌妻呆若木呆哥跟愉加教练第一部想把自己放进冰箱呆上一天呎独一味胶囊独一味一味相思禅茶一味一味茶禅一味独一味颗粒一城一味独爱你一味独一味丸化氏一味一味的一味的意思一味鱼竿一味相思作品十一味参芪片独一味软胶囊参芪十一味颗粒独一味分散片谁能给我一味断情散