程序博客网 > 英雄时代知乎

python爬虫由浅入深4--基于bs4的html内容遍历方法

来源：互联网发布：英雄时代知乎编辑：程序博客网时间：2024/06/16 17:19

基于bs4的html内容遍历方法

html可转化为树形结构，从而可以让我们对遍历方法和遍历过程有一个直观的认识

例如，以下的html代码

<html> <head>  <title>   This is a python demo page  </title> </head> <body>  <p class="title">   <b>    The demo python introduces several python courses.   </b>  </p>  <p class="course">   Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:   <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">    Basic Python   </a>   and   <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">    Advanced Python   </a>  </p> </body></html>

就可以转化为以下的标签树：

标签树可以有三种遍历方式：

标签树的下行遍历：

属性说明

.contents 子节点的列表，将<tag>所有的儿子节点存入列表

.children 子节点的迭代类型，与contents类似，用于循环遍历儿子节点

.descendants 子孙节点的迭代类型，包含所有的子孙节点，用于循环遍历

标签树的上行遍历：

属性说明

.parent 节点的父亲标签

.parents 节点先辈标签的迭代类型，用于循环先辈节点

标签树的平行遍历：

.next_slibing 返回按照html文本顺序的下一个平行节点标签

.previous_slibing 返回按照html文本顺序的上一个平行节点标签

（所有的平行遍历必须发生在同一个父节点下的各节点之间）

综上，可以得下图：

阅读全文

0 0

英雄时代知乎

英雄时代知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子运动闪到腰怎么办肠氢挛严重怎么办干活劳累过度怎么办脑袋不清晰怎么办? 酸奶过敏怎么办脑子健忘怎么办大脑迟钝怎么办衣服穿后有味道怎么办肠胃感冒怎么办篮球鞋前掌太宽怎么办产后肚子很大怎么办高考前一天感冒怎么办高考感冒怎么办身体差头晕怎么办中年人体质差怎么办学车学不会怎么办脑袋疼怎么办钻了牛角尖怎么办? 脑子不够灵活怎么办大脑记忆力差怎么办一半屁股抽筋怎么办鞋子内侧磨损怎么办球鞋开胶了怎么办脑袋不灵活怎么办反应能力慢怎么办鞋底遇水就滑怎么办小孩肾虚尿频怎么办小朋友肾亏怎么办体质太差老感冒怎么办大脑血管堵塞怎么办中动脉狭窄怎么办唱歌肺活量不够怎么办打球累了怎么办打篮球运球僵硬怎么办怀孕体力差怎么办老是呕吐反胃怎么办运动软怎么办恶心拉肚子是怎么办突然反胃恶心怎么办鞋底踩到胶了怎么办踢完球脚后跟疼怎么办