python_基于bs4html内容遍历
来源:互联网 发布:播音艺考生软件 编辑:程序博客网 时间:2024/06/05 07:29
标签树的下行遍历
.contents(内容) 子节点的列表,将<tag>所有的儿子节点存入列表
.childern(孩子) 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点
.descendants (后裔)子孙节点的迭代类型,包含所有子孙节点,用于循环遍历
from bs4 import BeautifulSoupimport requeststry: r=requests.get("http://python123.io/ws/demo.html",timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding demo=r.text soup=BeautifulSoup(demo,'html.parser') print('head标签',soup.head)#<head><title>This is a python demo page</title></head> #head内容 print('head标签的内容',soup.head.contents) print('body标签的内容',soup.body.contents) #遍历子节点 for child in soup.body.children: print(child) #遍历子孙节点 for descendants in soup.body.descendants: print('子孙节点',descendants)except: print("有点问题")
标签树的上行遍历:
.parent 节点的父亲标签
.parents 节点先辈标签的迭代类型,用于循环遍历先辈节点
from bs4 import BeautifulSoupimport requeststry: #接收响应 r=requests.get("http://python123.io/ws/demo.html",timeout=30) #异常 r.raise_for_status() #编码 r.encoding=r.apparent_encoding #接收返回的html 用BeautifulSoup 进行处理 demo=r.text soup=BeautifulSoup(demo,'html.parser') print(soup) #打印 标签树的上行遍历 for parent in soup.a.parents: if parent is None : print(parent) else: print('a',parent.name)except: print('异常')
标签树的平行遍历(平行遍历发生在同一节点下):
.next_sibling 返回按照html文本顺序的下一个平行节点标签
.previous_sibling 返回按照HTML文本顺序的上一个平行节点标签
.next_siblings 迭代类型,返回按照HTML 文本顺序的后续所有平行节点标签
.previous_siblings 迭代类型,返回按照HTML文本顺序的前续所有平行节点标签
阅读全文
0 0
- python_基于bs4html内容遍历
- python_爬取博客内容
- 基于bs4的HTML内容遍历方法
- python_获取网页的内容和状态
- python_
- Python网络爬虫与信息提取-Day7-基于bs4库的HTML内容遍历方法
- python爬虫由浅入深4--基于bs4的html内容遍历方法
- XSL遍历节点内容
- XSL遍历节点内容
- Shell遍历文件内容
- 遍历文件夹下内容
- PHP遍历文件夹内容
- 基于内容的推荐
- 基于内容图像检索系统
- 基于内容的推荐
- 基于内容图像检索
- 基于内容的推荐
- flex 遍历Object对象内容
- 微信小程序开发系列——3. 腾讯云服务器配置
- seo视频教程:怎么写网站标题(title)?
- 指针
- Hibernate知识点
- 软件工程导论(第6版)整理 第二章 可行性研究
- python_基于bs4html内容遍历
- Android入门了解
- Professional JS(3.4.5The Number Type&3.4.6The String Type)
- c#枚举和结构
- hibernatJPA---【小白系列】0基础到熟练应用hibernate框架(十五)
- HDU 2089 数位DP 解题报告
- CodeForces
- 网银UKey登录数据签名和验签流程
- 编程思想第二章读书笔记