Scrapy抓取W3C
来源:互联网 发布:java 获取前一天日期 编辑:程序博客网 时间:2024/06/07 06:32
因为web要开卷考试,准备把W3C上的东西爬下来去考试
用最简单的方法:
spider.py:
# -*- coding:utf-8 -*-import scrapyclass W3CSpider(scrapy.Spider): name='W3C' start_urls=[ 'http://www.w3school.com.cn/html/index.asp', ] def parse(self,response): for href in response.xpath('//div[@id="navsecond"]/div[@id="course"]/ul/li/a/@href'): yield response.follow(href,self.parse_content) def parse_content(self,response): yield{ 'content':response.xpath('//div[@id="maincontent"]').xpath('normalize-space(string(.))').extract()[0], }
注意以下几点:
1.parse函数是提取课程表下的所有链接
2.normalize-space()是去除所有空格和换行
3.提出所有文本
data = response.xpath('//div[@id="example"]')info = data.xpath('string(.)').extract()[0]
info就是<div id="example">
标签下所有的文本
阅读全文
0 0
- Scrapy抓取W3C
- Scrapy抓取网页数据
- Python Scrapy抓取数据
- Scrapy抓取壁纸图片
- scrapy抓取登陆页面
- scrapy抓取淘宝女郎
- scrapy 抓取内涵社区
- 用scrapy进行网页抓取
- scrapy 抓取京东首页
- Scrapy抓取框架的介绍
- 用scrapy进行网页抓取
- Python抓取框架Scrapy入门教程
- 用scrapy进行网页抓取
- scrapy 抓取js生成页
- 用scrapy进行网页抓取
- scrapy递归抓取网页数据
- 使用scrapy进行大规模抓取
- 使用scrapy进行大规模抓取
- Tomcat启用HTTPS协议配置过程
- mysql赋权
- Hibernate中@Embedded和@Embeddable注解的使用
- 定时任务-在spring中配置quartz
- mysql 字段的类型有哪些
- Scrapy抓取W3C
- Service全方位了解,总有你不知道的一面
- Excel图纵坐标单位修改
- item点击失效
- Oracle SQL函数listagg实现多行字符串连接
- iOS UIButton文字和图片上下左右偏移封装,一个方法即可实现button上文字和图片不同位置的放置
- ASP.NET Core MVC 模型绑定用法及原理
- Mac os系统android studio无法识别部分安卓手机,无法进行调试
- 互联网架构(8):Socket网络通信编程--Netty