scrapy关于tbody标签的问题

来源:互联网 发布:阿里云流量收费标准 编辑:程序博客网 时间:2024/04/30 01:16

爬取网页时,当爬取 表格(table) 的内容时,发现用 xpath checker 获取正常,程序却解析不到。

原因是:浏览器会在table标签下添加tbody(注:在chrome、火狐测试都有这个情况。出现这种原因是因为浏览器会对html文本进行一定的规范化

如下所示:分别在【网页源代码】和【审查元素】查看,会发现 【审查元素】中多了 tbody 标签。


解决方法:使用scrapy 时将分析出的xpath 中的 tbody 去掉即可。

参考自:

http://www.bubuko.com/infodetail-4953.html

http://www.tuicool.com/articles/EVfqI3

0 0
原创粉丝点击