Python分析网页神器pyquery

来源:互联网 发布:达芬奇恶魔知乎 编辑:程序博客网 时间:2024/05/16 05:06

关于pyquery

相信做web的没有不知道jQuery的。它是那么的方便,功能强大。 它的一大特点就是它的选择器。
pyquery是一个模仿jquery的python编写的分析网页的类库。它的接口完全模仿了jquery。

pyquery的文档

pyquery文档

测试

import urllibfrom pyquery import PyQuery as pqimport codecs# fetch pageprint 'fetch page...'url = 'http://www.7dsw.com/toplastupdate/1.html'resp = urllib.urlopen(url)page = resp.read()page = page.decode('gbk')
fetch page...
doc = pq(page)
doc
[<html>]
wanted = doc('a')
wanted
[<a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.first>, <a.pgroup>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.next>, <a.ngroup>, <a.last>]
d = [i.attr('href') for i in wanted.items()]
d
['#', u"javascript:window.external.addFavorite('http://www.7dsw.com','7\u5ea6\u4e66\u5c4b_\u4e66\u53cb\u6700\u503c\u5f97\u6536\u85cf\u7684\u7f51\u7edc\u5c0f\u8bf4\u9605\u8bfb\u7f51')", 'http://www.7dsw.com', '/newmessage.php?tosys=1', '/jifen.html', 'http://www.7dsw.com/', '/modules/article/bookcase.php', 'http://www.7dsw.com/sort1/1.html', 'http://www.7dsw.com/sort2/1.html', 'http://www.7dsw.com/sort3/1.html', 'http://www.7dsw.com/sort4/1.html', 'http://www.7dsw.com/sort5/1.html', 'http://www.7dsw.com/sort6/1.html', '/quanben/', '/toplastupdate/1.html', 'http://www.7dsw.com/book/17/17870/', 'http://www.7dsw.com/book/17/17870/11409157.html', 'http://www.7dsw.com/book/2/2827/', 'http://www.7dsw.com/book/2/2827/11409156.html', 'http://www.7dsw.com/book/18/18732/', 'http://www.7dsw.com/book/18/18732/11409155.html', 'http://www.7dsw.com/book/33/33268/', 'http://www.7dsw.com/book/33/33268/11409154.html', 'http://www.7dsw.com/book/27/27876/', 'http://www.7dsw.com/book/27/27876/11409150.html', 'http://www.7dsw.com/book/4/4876/', 'http://www.7dsw.com/book/4/4876/11409145.html', 'http://www.7dsw.com/book/33/33261/', 'http://www.7dsw.com/book/33/33261/11409144.html', 'http://www.7dsw.com/book/29/29849/', 'http://www.7dsw.com/book/29/29849/11409133.html', 'http://www.7dsw.com/book/32/32541/', 'http://www.7dsw.com/book/32/32541/11409132.html', 'http://www.7dsw.com/book/30/30083/', 'http://www.7dsw.com/book/30/30083/11409130.html', 'http://www.7dsw.com/book/15/15156/', 'http://www.7dsw.com/book/15/15156/11409124.html', 'http://www.7dsw.com/book/33/33518/', 'http://www.7dsw.com/book/33/33518/11409123.html', 'http://www.7dsw.com/book/31/31904/', 'http://www.7dsw.com/book/31/31904/11409115.html', 'http://www.7dsw.com/book/6/6807/', 'http://www.7dsw.com/book/6/6807/11409112.html', 'http://www.7dsw.com/book/30/30605/', 'http://www.7dsw.com/book/30/30605/11409109.html', 'http://www.7dsw.com/book/33/33169/', 'http://www.7dsw.com/book/33/33169/11409107.html', 'http://www.7dsw.com/book/6/6415/', 'http://www.7dsw.com/book/6/6415/11409101.html', 'http://www.7dsw.com/book/30/30440/', 'http://www.7dsw.com/book/30/30440/11409099.html', 'http://www.7dsw.com/book/28/28703/', 'http://www.7dsw.com/book/28/28703/11409096.html', 'http://www.7dsw.com/book/28/28849/', 'http://www.7dsw.com/book/28/28849/11409095.html', 'http://www.7dsw.com/book/29/29668/', 'http://www.7dsw.com/book/29/29668/11409093.html', 'http://www.7dsw.com/book/33/33460/', 'http://www.7dsw.com/book/33/33460/11409091.html', 'http://www.7dsw.com/book/33/33683/', 'http://www.7dsw.com/book/33/33683/11409090.html', 'http://www.7dsw.com/book/28/28865/', 'http://www.7dsw.com/book/28/28865/11409086.html', 'http://www.7dsw.com/book/22/22913/', 'http://www.7dsw.com/book/22/22913/11409085.html', 'http://www.7dsw.com/book/32/32568/', 'http://www.7dsw.com/book/32/32568/11409084.html', 'http://www.7dsw.com/book/26/26175/', 'http://www.7dsw.com/book/26/26175/11409082.html', 'http://www.7dsw.com/book/12/12455/', 'http://www.7dsw.com/book/12/12455/11409081.html', 'http://www.7dsw.com/book/28/28760/', 'http://www.7dsw.com/book/28/28760/11409079.html', 'http://www.7dsw.com/book/29/29305/', 'http://www.7dsw.com/book/29/29305/11409078.html', 'http://www.7dsw.com/toplastupdate/1.html', 'http://www.7dsw.com/toplastupdate/1.html', 'http://www.7dsw.com/toplastupdate/2.html', 'http://www.7dsw.com/toplastupdate/3.html', 'http://www.7dsw.com/toplastupdate/4.html', 'http://www.7dsw.com/toplastupdate/5.html', 'http://www.7dsw.com/toplastupdate/6.html', 'http://www.7dsw.com/toplastupdate/7.html', 'http://www.7dsw.com/toplastupdate/8.html', 'http://www.7dsw.com/toplastupdate/9.html', 'http://www.7dsw.com/toplastupdate/10.html', 'http://www.7dsw.com/toplastupdate/2.html', 'http://www.7dsw.com/toplastupdate/16.html', 'http://www.7dsw.com/toplastupdate/1056.html']

jQuery的文档

可以参考query的文档来明白pyquery的使用方式

jQuery 遍历函数
jQuery 遍历函数包括了用于筛选、查找和串联元素的方法。
函数 描述
.add() 将元素添加到匹配元素的集合中。
.andSelf() 把堆栈中之前的元素集添加到当前集合中。
.children() 获得匹配元素集合中每个元素的所有子元素。
.closest() 从元素本身开始,逐级向上级元素匹配,并返回最先匹配的祖先元素。
.contents() 获得匹配元素集合中每个元素的子元素,包括文本和注释节点。
.each() 对 jQuery 对象进行迭代,为每个匹配元素执行函数。
.end() 结束当前链中最近的一次筛选操作,并将匹配元素集合返回到前一次的状态。
.eq() 将匹配元素集合缩减为位于指定索引的新元素。
.filter() 将匹配元素集合缩减为匹配选择器或匹配函数返回值的新元素。
.find() 获得当前匹配元素集合中每个元素的后代,由选择器进行筛选。
.first() 将匹配元素集合缩减为集合中的第一个元素。
.has() 将匹配元素集合缩减为包含特定元素的后代的集合。
.is() 根据选择器检查当前匹配元素集合,如果存在至少一个匹配元素,则返回 true。
.last() 将匹配元素集合缩减为集合中的最后一个元素。
.map() 把当前匹配集合中的每个元素传递给函数,产生包含返回值的新 jQuery 对象。
.next() 获得匹配元素集合中每个元素紧邻的同辈元素。
.nextAll() 获得匹配元素集合中每个元素之后的所有同辈元素,由选择器进行筛选(可选)。
.nextUntil() 获得每个元素之后所有的同辈元素,直到遇到匹配选择器的元素为止。
.not() 从匹配元素集合中删除元素。
.offsetParent() 获得用于定位的第一个父元素。
.parent() 获得当前匹配元素集合中每个元素的父元素,由选择器筛选(可选)。
.parents() 获得当前匹配元素集合中每个元素的祖先元素,由选择器筛选(可选)。
.parentsUntil() 获得当前匹配元素集合中每个元素的祖先元素,直到遇到匹配选择器的元素为止。
.prev() 获得匹配元素集合中每个元素紧邻的前一个同辈元素,由选择器筛选(可选)。
.prevAll() 获得匹配元素集合中每个元素之前的所有同辈元素,由选择器进行筛选(可选)。
.prevUntil() 获得每个元素之前所有的同辈元素,直到遇到匹配选择器的元素为止。
.siblings() 获得匹配元素集合中所有元素的同辈元素,由选择器筛选(可选)。
.slice() 将匹配元素集合缩减为指定范围的子集。

0 0
原创粉丝点击