程序博客网 > 阿里斯顿和史密斯知乎

爬虫进阶

来源：互联网发布：阿里斯顿和史密斯知乎编辑：程序博客网时间：2024/06/06 03:24

Python爬虫架构选择

HTML解析器：

HTMLParser,BeautifulSoup4,XPath的lxml.
选择：XPath > BeautifulSoup4 > HTMLParser

HTTP请求：

urllib,urllib2,requests
选择：requsets >> urllib2,urllib

爬虫框架：

Scrapy

Python爬虫进阶内容

Scrapy爬虫框架
beautifulsoup解析器
Selector/XPath -> Scrapy
并发
- twisted
- gevent
分布式爬虫
- 任务队列：https://github.com/nvie/rq
- 任务队列与存储结合：https://github.com/rolando/scrapy-redis
数据处理：https://www.github.com/grangier/python-goose

不知道用爬虫来做什么？

知乎搜索一下：何明科

https://www.zhihu.com/people/he-ming-ke

刷一下他的高票回答，你就可以知道原来用爬虫可以做这么酷的事情，顺便还把钱赚了。

0 0

阿里斯顿和史密斯知乎

阿里斯顿和史密斯知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子锦利天一仁和悦湖锦府雅利安里美尤利雅中国三个雅利安民族家园2菲雅利帝国利雅得到广州紧身群女教师里美尤利雅雅荷蓝湾泊雅湾无锡溪湾雅苑利雅路壁挂炉利雅路飞利普剃须刀飞利电视机加拿利海枣价格加拿利海枣树价格甘利欣胶囊甘利欣注射剂说明书甘利欣降转氨酶快吗说不出爱你我是爱你的别想她 mv 再回首mv 不良mv 放学别跑托卡别别墅在哪里下载别知己mp3免费下载别输在不会表达上txt全集下载别知己下载神农别闹txt下载放学别跑下载别知己mp3下载别惹那条龙txt下载别惹佐汉下载别想她下载别伤害我mp3免费下载别输在不会表达上txt免费下载逆天九小姐帝尊别跑下载哥别丢下我妈妈不要丢下我