爬虫 只爬取网页部分内容的问题

来源:互联网 发布:star法则简历模板java 编辑:程序博客网 时间:2024/04/30 17:47

在爬虫爬取网页的时候只爬取到部分内容,后来查到原因是因为爬取的html文件是不规范的html,导致不同的html parser的分析结果不一样。
把原来的

soup = BeautifulSoup(wb_data, 'lxml')

替换成

soup = BeautifulSoup(wb_data, 'html.parser')

就可以正常读取内容了。

通常 BeautifulSoup 的 html parser 有以下几种:

  • lxml
  • html.parser
  • lxml-xml
  • xml
  • html5lib
0 0
原创粉丝点击