python爬虫由浅入深4--基于bs4的html内容遍历方法
来源:互联网 发布:英雄时代知乎 编辑:程序博客网 时间:2024/06/16 17:19
基于bs4的html内容遍历方法
html可转化为树形结构,从而可以让我们对遍历方法和遍历过程有一个直观的认识
例如,以下的html代码
<html> <head> <title> This is a python demo page </title> </head> <body> <p class="title"> <b> The demo python introduces several python courses. </b> </p> <p class="course"> Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses: <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1"> Basic Python </a> and <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2"> Advanced Python </a> </p> </body></html>
就可以转化为以下的标签树:
标签树可以有三种遍历方式:
标签树的下行遍历:
属性 说明
.contents 子节点的列表,将<tag>所有的儿子节点存入列表
.children 子节点的迭代类型,与contents类似,用于循环遍历儿子节点
.descendants 子孙节点的迭代类型,包含所有的子孙节点,用于循环遍历
标签树的上行遍历:
属性 说明
.parent 节点的父亲标签
.parents 节点先辈标签的迭代类型,用于循环先辈节点
标签树的平行遍历:
.next_slibing 返回按照html文本顺序的下一个平行节点标签
.previous_slibing 返回按照html文本顺序的上一个平行节点标签
(所有的平行遍历必须发生在同一个父节点下的各节点之间)
综上,可以得下图:
阅读全文
0 0
- python爬虫由浅入深4--基于bs4的html内容遍历方法
- python爬虫由浅入深6--基于bs4库的HTML内容的查找方法
- Python网络爬虫与信息提取-Day7-基于bs4库的HTML内容遍历方法
- 基于bs4的HTML内容遍历方法
- python——爬虫学习——基于bs4库的HTML内容查找方法-(3)
- Python网络爬虫与信息提取-Day8-基于bs4库的HTML格式输出
- python爬虫由浅入深7--基于中国大学排名的定向爬虫
- python爬虫由浅入深5--的html格式输出 prettify()
- requests和bs4的python爬虫入门
- python爬虫由浅入深3--BeautifulSoup的使用的基本方法
- python爬虫由浅入深8---基于正则表达式查询的淘宝比价定向爬虫
- bs4爬虫:获取百度贴吧的内容
- Python爬虫(bs4)-1
- Python爬虫(bs4)-2
- Python爬虫(bs4)-3
- Python爬虫之bs4库
- Python -bs4反爬虫解决方法
- 从零开始写Python爬虫 --- 1.3 BS4库的解析器
- 第三周 【项目 3- 求集合并集】
- Qt 获取文件夹下所有文件
- ubuntu下nvm,node以及npm的安装与使用
- 《Spring设计思想》AOP设计基本原理
- 商城类网站购物车的实现思路
- python爬虫由浅入深4--基于bs4的html内容遍历方法
- 【安全牛学习笔记】Burpsuite
- 分支结构与循环结构
- 如何使用Future和ConcurrentHashMap实现一个线程安全且高效的缓存
- C++ STL开发温习与总结(四): 4.C++面向对象机制的实现
- 深入理解Android(一):Gradle详解
- hbuilder mui 移动网页 页面传参
- sprign boot项目实战:日志
- Git 保存用户名和密码方法