Python爬虫之使用BeautifulSoup解析HTML文本

来源:互联网 发布:淘宝卖的权健是真的吗 编辑:程序博客网 时间:2024/06/07 07:25
直接上代码,注释也写了


from bs4 import BeautifulSoup#2016.10.20 Python爬虫之解析HTML# 摘要# 创建对象,DOM树# 搜索节点,访问节点 - 两种方法# 名称,属性,文字,(节点名称,节点属性,节点文本内容)# 创建对象soup = BeautifulSoup(html_doc,# 文档字符串'html.parser',# 解析器from_encoding = 'utf-8'# 文档编码)# 搜索节点soup.find_all('a')# 所有a标签soup.find_all('a',href='#')#也可用正则表达式soup.find_all('div',class_='xxx',string='hahaha')# 类名为xxx而且文本内容为hahaha的div# 访问节点信息# <a href='#'>hahaha</a>node.namenode['href']node.get_text()# a链接文字


0 0
原创粉丝点击