Python网络爬虫(2)处理网页数据find和findall函数
来源:互联网 发布:北京大学网络教育 编辑:程序博客网 时间:2024/05/18 22:09
findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)
标签参数tag :传一个标签的名称或多个标签名称组成的 Python 列表做标签参数
属性参数attributes 是用一个 Python 字典封装一个标签的若干属性和对应的属性值
递归参数 recursive 是一个布尔变量。你想抓取 HTML 文档标签结构里多少层的信息?如果 recursive 设置为 True ,findAll 就会根据你的要求去查找标签参数的所有子标签,以及子标签的子标签。如果 recursive 设置为 False ,findAll 就只查找文档的一级标签。findAll 默认是支持递归查找的(recursive 默认值是 True );
文本参数 text 用标签的文本内容去匹配,而不是用标签的属性
这只是用来寻找文本比较常用的
- 四种BeautifulSoup对象:
BeautifulSoup对象
BeautifulSoup.tag对象
NavigableString对象:
用来表示标签里的文字,而不是标签。
Comment对象:
用来查找HTML文档的注释标签,<!--XXX-->
- 导航树
如果想要通过标签在文档中的位置来查找标签,则需要导航树。BeautifulSoup对象本身就是一个导航树,我们直接通过标签来访问。
除此之外,我们还可以通过children来访问一个标签的子标签,descendants来访问后代标签,parent来访问父标签,next_siblings来访问兄弟标签,previpus_sibling来访问前一个兄弟标签等。
0 0
- Python网络爬虫(2)处理网页数据find和findall函数
- python爬虫(1.find和findAll函数提取文本)
- Python爬虫:BeautifulSoup的find()和findAll()
- Python ElementTree的find,findall函数参数
- python - BeautifulSoup中的find()和findAll()
- Python的BeautifulSoup的find()和findAll()
- python网络爬虫与信息采取之解析网页(二)---BeautifulSoup库的find()和find_all()
- Python网络爬虫(一)-----获取网页数据
- python网络爬虫-数据标准化处理
- ③BeautifulSoup中的find()函数和findAll()函数
- Python网络爬虫(1)获取网页
- bs.find()和bs.findAll()的区别,print()函数的格式化
- [python]findall函数讲解
- Python基础和网络爬虫数据分析
- 【Python爬虫2】网页数据提取
- Python网络爬虫(四)-----异常处理
- Python网络爬虫(二)-----发送数据
- Python3,通过re模块中的sub()和findall()2个方法提升爬虫提取数据的效率
- js知识点大全1
- 静态页面html防止js加载缓存
- 机器学习面经
- ssh三层架构
- ubuntu apt-get update提示无法验证签名
- Python网络爬虫(2)处理网页数据find和findall函数
- 快递100接口使用
- yarn 替代npm
- HDU-2570 迷瘴 (贪心)
- 面试经验分享之机器学习、大数据问题
- 入职任务之自己做一套DX API~
- RedisDesktopManager无法连接虚拟机中启动的redis服务问题解决
- pip Fatal error in launcher: Unable to create process using
- 函数指针作为某个函数的参数