程序博客网 > muji值得买的东西知乎

Python自动化（八）使用Scrapy shell提取网页信息

来源：互联网发布：muji值得买的东西知乎编辑：程序博客网时间：2024/06/16 09:29

使用Scrapy shell提取网页信息

使用Scrapy shell提取网页信息
- 说明
- 使用scrapy shell获得网页内容
- 关于request和response
- 关于responsebody
- 提取responsebody中指定的数据

说明

本文假设您已经成功安装Scrapy。

使用scrapy shell获得网页内容

在终端中执行如下命令：
scrapy shell -s USER_AGENT="Mozilla/5.0" "https://www.qiushibaike.com"
如果顺利的话，将看到下图所示的界面：
scrapy shell使用示例

关于request和response

request对象中存放的是向服务器发送的请求信息；
response对象中存放的是从服务器获得的所有响应信息。

关于response.body

response.body是从服务器获得的内容。

提取response.body中指定的数据

这里，我们以提取网页中的主题内容为例，首先我们找到内容对应的xpath路径，如下图：
通过火狐浏览器查看xpath

然后，我们通过response.xpath()方法提取所有内容，如下图：
Scrapy中使用xpath提取网页内容

从图中的结果可以看到，我们提取的内容中包含HTML标签，我们可以通过二次xpath优化一下，去掉多余的HTML标签，如下图：

Scrapy中使用xpath提取网页内容

接下来，我们可以在修改一下，把提取的信息保存到文件中，如下图所示：
使用Scrapy shell提取网页信息

阅读全文

0 0

muji值得买的东西知乎

muji值得买的东西知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子流感疫苗接种小豆苗预防接种下载儿童接种疫苗一览表流感疫苗接种时间国际预防接种证书儿童疫苗接种时间表肺炎疫苗接种时间新生儿疫苗接种时间表新生儿疫苗接种接种疫苗后12小时内发烧卡介苗接种反应儿童疫苗接种疫苗接种证被涂改疫苗接种记录全国查询狗狗疫苗接种时间表 0一6岁预防接种程序表百白破疫苗接种时间宫颈疫苗接种年龄接种狂犬疫苗后注意事项向过去接种在线播放麻腮风疫苗接种时间宝宝疫苗接种时间表卡介苗接种时间医生不建议接种23价肺炎疫苗水痘疫苗接种时间儿童预防针接种时间表预防针接种时间表预防接种时间表接种疫苗时间表 13价肺炎疫苗接种时间 2018年新预防接种时间表流感疫苗有必要接种吗五价轮状病毒疫苗接种时间轮状病毒疫苗什么时候接种文玩核桃接穗虹桥火车站接人攻略2018 虹桥火车站到达层接人插座接线浴霸接线图电表接线图浴霸接线