python之pyQuery使用总结
来源:互联网 发布:mac哑光液体大红 编辑:程序博客网 时间:2024/05/17 01:12
什么是pyQuery
当我们使用爬虫抓取网页后,还需要对抓取的HTML内容进行处理以获得需要的信息.pyQuery是jQuery的python实现,可以用来解析HTML内容.
安装
我的环境:Ubuntu 14.04+python2.7
命令:pip install pyquery
使用
加载HTML内容
from pyquery import pyQuery as pq
可以从字符串,文件或URL加载HTML内容
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><h1>Hello</h1></body></head></html>")doc_2 = pq(filename="file_path")doc_3 = pq(url="http://www.baidu.com")
根据HTML标签来获得元素
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><h1>Hello</h1></body></head></html>")print doc_1('head') # <head><body><h1>Hello</h1></body></head>print doc_1('h1') # <h1>Hello</h1>
获取HTML块或文本块
使用html()和text()
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><h1>Hello</h1></body></head></html>")print doc_1('head').html() # <body><h1>Hello</h1></body>print doc_1('head').text() # Hello
从索引获取元素
eq(index)
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><p>test1</p><p>test2</p></body></head></html>")print doc_1('p').eq(0).html() # test1print doc_1('p').eq(1).html() # test2
根据类名和id获取元素
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><div class='div1'><p id='2'>test1</p></div></body></head></html>")print doc_1('.div1').html() # <p id="2">test1</p>print doc_1('#2').html() # test1
获取属性值
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><div class='div1'><a href='http://abc.com'>test1</a></div></body></head></html>")print doc_1('div').attr('class') # div1print doc_1('a').attr('href') # http://abc.com
修改属性值
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><div class='div1'><a href='http://abc.com'>test1</a></div></body></head></html>")print doc_1('a').attr('href', 'http://www.google.com') # 将href属性修改为google的地址
查找嵌套元素find()
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><div class='div1'><a href='http://abc.com'>test1</a></body></head></html>")print doc_1('div').find('a') # <a href="http://abc.com">test1</a>
获取子元素
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><div class='div1'><p id='1'>test1</p><a href='http://abc.com'>test2</a></div></body></head></html>")print doc_1('div').children() # <p id="1">test1</p><a href="http://abc.com">test2</a>print doc_1('div').children('a') # <a href="http://abc.com">test2</a>
获取父元素
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><div class='div1'><p id='1'>test1</p><a href='http://abc.com'>test2</a></div></body></head></html>")print doc_1('a').parents() # 所有的HTML内容print doc_1('a').parents('div') # <div class="div1"><p id="1">test1</p><a href="http://abc.com">test2</a></div>
为元素添加类
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><div><p id='1'>test1</p><a href='http://abc.com'>test2</a></div></body></head></html>")print doc_1('div').addClass('div1') # <div class="div1"><p id="1">test1</p><a href="http://abc.com">test2</a></div>
判断元素是否有给定的类
from pyquery import PyQuery as pqdoc_1 = pq("<html><head><body><div><p id='1'>test1</p><a href='http://abc.com'>test2</a></div></body></head></html>")print doc_1('div').hasClass('div1') # Falseprint doc_1('div').addClass('div1') # <div class="div1"><p id="1">test1</p><a href="http://abc.com">test2</a></div>print doc_1('div').hasClass('div1') # False
1 0
- python之pyQuery使用总结
- python使用pyquery库总结
- Python中PyQuery库的使用总结
- Python中PyQuery库的使用总结
- Python中PyQuery库的使用总结
- Python中PyQuery库的使用总结
- Python中PyQuery库的使用总结
- Python中PyQuery库的使用总结
- python之pyquery 学习
- Python学习笔记—PyQuery库的使用总结
- Python学习笔记—PyQuery库的使用总结
- python:使用pyquery分析html
- python pyquery
- python学习之pyquery学习安装教程
- python第三方模块之pyquery
- Python爬虫利器之PyQuery的用法
- Python使用pyquery抓取数据实例
- Python爬虫利器六之PyQuery的用法
- c语言怎么获取数组的长度
- 字符串相关(选自《C和指针》)
- Android开发中利用imeOptions属性将键盘回车键改成搜索等功能键【提高用户输入体验】
- bzoj 2879: [Noi2012]美食节(费用流+动态加边)
- SPARK零基础第一天
- python之pyQuery使用总结
- 进程状态和调度算法
- 《java入门第一季》之eclipse快捷键
- 八数码问题
- Swift知识结构图
- 【异常处理】将错误日志抛向后台以-.txt的保存
- 最新最潮的24段魔尺立体几何玩法(2016版)
- 互联网服务端技术——如何学(下A)
- centOS上安装Telnet