(六)PyQuery库

来源:互联网 发布:wap商城源码 编辑:程序博客网 时间:2024/06/08 11:29

初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件

**字符串初始化**html = '''from pyquery import PyQuery as pqdoc = pq(html)print(doc)print(type(doc))print(doc('li'))

如果想要获取class 则doc(‘.class_name’),如果是id则doc(‘#id_name’)….

文件初始化
通常是一个html文件,例如:pq(filename=’index.html’)

from pyquery import PyQuery as pqdoc = pq(html)print(doc('#container .list li'))
from pyquery import PyQuery as pqdoc = pq(html)items = doc('.list')print(type(items))print(items)lis = items.find('li')print(type(lis))print(lis)

代码中的items.find(‘li’) 则表示查找ul里的所有的li标签
当然这里通过children可以实现同样的效果,并且通过.children方法得到的结果也是一个pyquery对象

li = items.children()print(type(li))print(li)

通过.parent就可以找到父元素的内容
通过.parents就可以找到祖先节点的内容

from pyquery import PyQuery as pqdoc = pq(html)items = doc('.list')container = items.parent()print(type(container))print(container
from pyquery import PyQuery as pqdoc = pq(html)items = doc('.list')parents = items.parents()print(type(parents))print(parents)

兄弟元素
siblings

from pyquery import PyQuery as pqdoc = pq(html)li = doc('.list .item-0.active')print(li.siblings())

遍历

单个元素

from pyquery import PyQuery as pqdoc = pq(html)li = doc('.item-0.active')print(li)lis = doc('li').items()print(type(lis))for li in lis:    print(type(li))    print(li)

获取属性
pyquery对象.attr(属性名)
pyquery对象.attr.属性名

from pyquery import PyQuery as pqdoc = pq(html)a = doc('.item-0.active a')print(a)print(a.attr('href'))print(a.attr.href)

获取文本
在很多时候我们是需要获取被html标签包含的文本信息,通过.text()就可以获取文本信息

from pyquery import PyQuery as pqdoc = pq(html)a = doc('.item-0.active a')print(a)print(a.text())

获取html
我们通过.html()的方式可以获取当前标签所包含的html信息

from pyquery import PyQuery as pqdoc = pq(html)li = doc('.item-0.active')print(li)print(li.html())

可以通过css添加一些css属性
可以通过attr给标签添加和修改属性

原创粉丝点击