程序博客网 > star法则简历模板java

爬虫只爬取网页部分内容的问题

来源：互联网发布：star法则简历模板java 编辑：程序博客网时间：2024/04/30 17:47

在爬虫爬取网页的时候只爬取到部分内容，后来查到原因是因为爬取的html文件是不规范的html，导致不同的html parser的分析结果不一样。
把原来的

soup = BeautifulSoup(wb_data, 'lxml')

替换成

soup = BeautifulSoup(wb_data, 'html.parser')

就可以正常读取内容了。

通常 BeautifulSoup 的 html parser 有以下几种：

lxml
html.parser
lxml-xml
xml
html5lib

0 0

star法则简历模板java

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子呆萌ps2手机版bios文件下载呆萌ps2使用教程呆萌ps2模拟器下载呆萌ps2模拟器怎么用绝世盛宠总裁呆萌妻隐婚总裁呆萌妻疯狂升级礼包呆萌信用卡呆帐信用卡呆帐要坐牢吧呆帐是什么意思呆账呆账怎么样恢复征信信用卡呆账银行呆账到底用不用还征信有呆账还能贷款吗背银行呆账死账的经历 7608元呆账3年后有多少利息信用卡呆账是什么意思呆账贷款是真的吗呆账是什么意思呆账贷款什么是呆账呆账核销有呆账能贷款吗应付账款呆账呆账和坏账的区别明细账哪个银行信用卡好下卡储蓄银行信用卡鸭旽公鸭烧鸭子鸭熏鸭咸水鸭闷鸭糟鸭鸭杂碌鸭鸭鸭网络全鸭