程序博客网 > 程序员的工资组成

Python-lxml.etree

来源：互联网发布：程序员的工资组成编辑：程序博客网时间：2024/05/14 02:20

写爬虫的时候，经常用到正则表达式，但最近写爬虫的时候接触到了一个新的处理html代码的库lxml，在这里归纳一下用法。

解析文本
xpath
ElementPath
解析文本
lxml.etree解析文本的方法有：
fromstring()
HTML()
XML()
parse()——解析文本类型的对象
用Xpath获取静态文本
在所爬取网页的审查元素中，找到自己要提取的数据所对应的标签，右键copy XML，具体操作如下：

from lxml import etreeimport requestsurl = 'url of website'content = requests.get(url).contenthtml = etree.HTML(content)html.xpath('XML')

Tips: 1) 若XML中出现/tbody标签，要记得删除
2) .xpath(substring)返回的是一个列表，里面的元素类型也是xml的，所以需要解析。我采用的方法是lxml.etree._ElementTree中的itertext()函数，返回的是一个可迭代的text对象。

ElementPath
interfind()——用迭代的方法来返回所有符合条件的元素
findall()——以列表形式返回所有元素
find()——返回第一个元素
findtext()——返回第一个元素的text

阅读全文

0 0

程序员的工资组成

程序员的工资组成

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子铃铛英语我的铃铛类似追凌车铃铛play 铃铛优的作品我的铃铛完结追凌铃铛play 系铃铛的读音铃铛的拼音怎么写铃铛的意思是什么铃铛的拼音是什么笔筒摆件摩尔庄园下课铃铛阴环上挂着一个小铃铛堀北铃音香苗铃音铃音多多东条铃音电话铃音铃音多多下载铃音多多铃音之家虫儿飞铃音铃音盒免费铃音歌曲铃音香苗铃音在线播放香苗铃音hkr报道堀北铃音和绫小路清隆h 一生有你铃音伤不起铃音下载制作铃音软件短信铃音大全来电铃音下载我心永恒铃音下载铃音多多一路上有你铃音免费铃音下载铃音多多下载铃声吧流行铃声好听个性的手机铃声一剪梅铃声