爬虫 只爬取网页部分内容的问题
来源:互联网 发布:star法则简历模板java 编辑:程序博客网 时间:2024/04/30 17:47
在爬虫爬取网页的时候只爬取到部分内容,后来查到原因是因为爬取的html文件是不规范的html,导致不同的html parser的分析结果不一样。
把原来的
soup = BeautifulSoup(wb_data, 'lxml')
替换成
soup = BeautifulSoup(wb_data, 'html.parser')
就可以正常读取内容了。
通常 BeautifulSoup 的 html parser 有以下几种:
- lxml
- html.parser
- lxml-xml
- xml
- html5lib
0 0
- 爬虫 只爬取网页部分内容的问题
- 打印网页中定义的部分内容
- avascript打印网页中定义的部分内容
- python 爬虫遇到的网页乱码问题
- Javascript打印网页部分内容
- js打印网页部分内容
- Javascript实现打印网页中定义的部分内容
- 使用javascript对网页的部分内容进行打印
- C# 截取所需网页上的部分内容
- Python,分析爬取简单waterfall型网页的部分内容
- 爬虫的网页
- python做网页爬虫需要注意的问题
- java网页爬虫遇到的问题及解决方法
- 网页打印(部分内容打印)
- 网页打印(部分内容打印)
- asp截断部分内容问题
- 解决方案:webview部分内容不显示的问题,或者无法跳转
- 网页爬虫的基本框架
- 在URL中传带百分号%的参数的两种方法:直接传编码或使用encodeURI
- Apache Sqoop使用
- php的几个面试题
- Day43: Miss a job interview
- 大数据开发-01
- 爬虫 只爬取网页部分内容的问题
- VC++6.0下基于MFC的串口通信助手实现
- thrift JAVA服务端 python客户端的实现
- cdecl函数返回值传参方式
- C++输出前n个数中的素数
- 进程描述和控制
- JavaScript基础知识
- Android如何运用Android studio进行安卓APP内存泄漏的检测
- JAVA数据库编程—mysql JDBC