python_BeautifulSoup库之遍历文档树

来源:互联网 发布:ubuntu 启动脚本 编辑:程序博客网 时间:2024/06/05 04:47
组别 名称 作用 输出 备注 第一组 contents 获得当前tag的所有子节点 list 注意当前是一个tag对象 - children 获得当前tag的所有子节点 list_iterator 注意当前是一个tag对象 - descendants 获得当前tag的所有子孙节点 generator 子孙节点同样返回 第二组 string 获得当前tag的string,即tag的value值 str 如下两个场景才可以使用:
1.当前tag只有一个NavigableString类型子节点
EX:<b>loulan<\b>
2.当前tag只含有一个子节点
EX:<b><a>loulan<\a><\b> - strings 获得当前tag的所有string generator - stripped_strings 获得当前tag的所有string generator 在strings属性的基础上,将每一个string两侧的空白字符去掉 第三组 parent 获得当前节点的的父节点 视情况而定 1.同样可以作用于字符串节点
2.BeautifulSoup对象的父节点是None - parents 获得当前节点的所有父辈节点 generator 1.递归查找,排列顺序也是如此
2.最后面两个值一定是BeautifulSoup、None 第四组 next_sibling 返回当前节点的下一个兄弟节点 视情况而定 - previous_sibling 返回当前节点的上一个兄弟节点 视情况而定 - next_siblings 返回当前节点后面的所有兄弟节点 generator - previous_siblings 返回当前节点前面的所有兄弟节点 generator 第五组 next_element 返回当前元素的下一个元素 视情况而定 属性结果是按照当前元素被解析后下一个要解析的内容
EX:<a>nihao</a><b>loulan</b>
<a>nihao</a>之后是nihao,nihao之后是<b>loulan</b>
- previous_element 返回当前元素的上一个元素 视情况而定 - next_elements 返回当前元素后面要解析的文档内容 generator - previous_elements 返回当前元素前面要解析的文档内容 generator
原创粉丝点击