自学PyQuery扎记
来源:互联网 发布:09和冷冷的故事 知乎 编辑:程序博客网 时间:2024/06/02 04:29
PyQuery解析HTML页面范例
1.HTML简介:
推荐参见W3school HTML教程
直接上例子:
<html> <body> <h1> First Nesting <!--这是第一层嵌套--> <h2> Second Nesting <!--这是第二层嵌套--> <h3 id='1' class='c2'> Third Nesting <!--这是第三层嵌套--> </h3> </h2> </h1> <a href="http://www.baidu.com">打开百度</a> <!--标签是a,href是a的属性--> </body></html>
浏览器显示如下:
2.Pyquery简介
pyuqery是用来解析html网页的一个强有力的工具。
笔者以上面的html块为例使用一些pyquery常用的功能。
2.1导入html网页
from pyquery import PyQuery as pqmyhtml='''<html> <body> <h1> First Nesting <!--这是第一层嵌套--> <h2> Second Nesting <!--这是第二层嵌套--> <h3 id='1' class='c2'> Third Nesting <!--这是第三层嵌套--> </h3> </h2> </h1> <a href="http://www.baidu.com">打开百度</a> <!--标签是a,href是a的属性--> </body></html>'''doc=pq(myhtml)
doc即为一个PyQuery对象了
2.2“索引”对象与方法
索引对象
doc(‘标签名’).html()#返回一个html块
doc(‘标签名’).text()#返回标签中的内容
doc(‘标签名’).attr(‘属性x’)#返回标签中x属性的值
索引方法
1.根据标签名直接索引
例:获取h2标签的内容:
>>doc(‘h2’).text()
>>’Second Nesting Third Nesting’
例:获取a标签中的连接地址:
>>doc(‘a’).attr(‘href’)
>>’http://www.baidu.com’
2.嵌套索引(find方法)
例:我想获取h3标签中的内容,但是如果代码中还有别的地方也存在h3标签怎么办呢?我们可以采取嵌套索引的办法(find方法,可以嵌套许多次):
>>doc(‘h1’).find(‘h2’).find(‘h3’).text()
>>’Third Nesting’
>>doc(‘h2’).find(‘h3’).text()
>>’Third Nesting’
3.根据classs名,id名索引 filter(过滤器)方法
例:如果还有另外的h3,但是两个h3的class属性或id属性不同,就可以用指定的class或id获取h3的内容
>>doc(‘h3’).filter(‘#1’).text() # ‘#1’获取id=’1’的,名为h3的标签的text
>>’Third Nesting’
>>doc(‘#1’).text()#也可以直接缺省参数,寻找id=’1’的标签
>>’Third Nesting’
>>doc(‘h3’).filter(‘.c2’).text() # ‘.c2’获取class=’c2’的,名为h3的标签的text
>>’Third Nesting’
>>doc(‘.c2’).text()
>>’Third Nesting’
3.备注
在一个PyQuery对象中,以上文的doc为例,doc(‘h3’)返回的实际上是一个列表,列表中的每个元素都可以看做一个html块,假如html网页中有很多名为h3的标签,返回的是一个html块列表。列表中的每个元素后必须再使用PyQuery分析:
for eachitem in doc('h3'): i=pq(eachitem).text() print(i)
- 自学PyQuery扎记
- pyQuery
- PyQuery
- PyQuery介绍
- pyquery安装
- 安装pyquery
- python pyquery
- pyquery安装
- pyquery小记
- pyquery ----用法
- 五. PyQuery
- 007 PyQuery
- PyQuery Tutorial: Basic HTML Parsing with PyQuery
- PyQuery读写html文件
- pyquery的用法
- Windows下安装pyquery
- python之pyquery 学习
- win7下面安装pyquery
- (fzu)Problem I Magic(模拟+后缀匹配)
- Kotlin for Android(七)Kotlin数据类和Gson
- hihocoder1093 SPFA算法模板
- 南师附中集训总结Day4
- Linux下各种错误处理
- 自学PyQuery扎记
- 继承笔记
- 配置Mac的vim,使代码高亮
- Java:模运算
- 匿名内部类笔记
- 如何终止java线程
- java.util.Properties类
- 修饰词的用法
- 简单了解Effective java