Python-lxml.etree
来源:互联网 发布:程序员的工资组成 编辑:程序博客网 时间:2024/05/14 02:20
写爬虫的时候,经常用到正则表达式,但最近写爬虫的时候接触到了一个新的处理html代码的库lxml,在这里归纳一下用法。
- 解析文本
- xpath
ElementPath
解析文本
lxml.etree解析文本的方法有:
fromstring()
HTML()
XML()
parse()——解析文本类型的对象用Xpath获取静态文本
在所爬取网页的审查元素中,找到自己要提取的数据所对应的标签,右键copy XML,具体操作如下:
from lxml import etreeimport requestsurl = 'url of website'content = requests.get(url).contenthtml = etree.HTML(content)html.xpath('XML')
Tips: 1) 若XML中出现/tbody标签,要记得删除
2) .xpath(substring)返回的是一个列表,里面的元素类型也是xml的,所以需要解析。我采用的方法是lxml.etree._ElementTree中的itertext()函数,返回的是一个可迭代的text对象。
- ElementPath
interfind()——用迭代的方法来返回所有符合条件的元素
findall()——以列表形式返回所有元素
find()——返回第一个元素
findtext()——返回第一个元素的text
阅读全文
0 0
- Python-lxml.etree
- Python安装lxml找不到etree
- python lxml库etree解析html
- Python学习——lxml.etree
- lxml.etree 入门
- python中from lxml import etree,在使用第三方包lxml引入etree模块时报错:
- lxml.etree._ElementUnicodeResult 转为字符
- python学习之一:如何解决 lxml中找不到etree等问题
- Pychrm中lxml导入etree失败
- lxml.etree API的一些细节说明
- python3.5安装lxml没有etree
- lxml.etree--用Xpath获取静态文本
- Python-lxml
- python - xml.etree
- 利用lxml中的etree 查询节点的某些属性值
- lxml, python的lxml工具箱
- Python中 etree.xpath实践
- python xml.etree.ElementTree解析
- (递归)递归实现顺序输出整数
- java8 stream特性
- Lua语法分析(4)- 表达式
- 静态绑定和动态绑定总结
- 求解二次同余式
- Python-lxml.etree
- 虚拟机Ubuntu16.04无法进入图形界面 出现问题:The system is running in low-graphics mode
- 分布式系统distributed-system资料
- Android安卓——Activity组件(2)
- P2115 [USACO14MAR]破坏Sabotage
- eclipse中 Maven项目SSM框架中文件上传简单实现之二Ajax表单形式上传
- 201. Bitwise AND of Numbers Range
- Mybatis学习之路(二):property元素应用
- nmap(一)