Python 利用urllib2 lxml 抓取网页信息
来源:互联网 发布:适合女生喝的红酒知乎 编辑:程序博客网 时间:2024/04/28 04:21
1. 本程序目的是提取网页中div class = "article_category" 的<a>标签下的text内容即黑体所示:
<div class="article_category"><a href="http://dir.yahoo.com/Recreation/Games/Video_Games/Titles/Recreation_and_Sports/Sports/Racing_and_Driving/MotorStorm" target="_blank">Recreation>Games>Video Games>Titles>Recreation and Sports>Sports>Racing and Driving>MotorStorm</a></div>
2. 使用的lib有:
import urllib2from lxml import etree
3. 源码:
(1) 获取html内容:
def get_html(url): try: response = urllib2.urlopen(url,timeout = 30) html = response.read() return html except Exception, e: print e
(2)构建元素树etree,并利用xpath得到标签内容:
def get_cat(ht): tree = etree.HTML(ht) cont = tree.xpath("//div[@class='article_category']/a") cat_ls = [] for x in cont: cat_ls.append(x.text) return cat_ls
0 0
- Python 利用urllib2 lxml 抓取网页信息
- Python网页抓取之Lxml
- Python 中利用urllib2简单实现网页抓取
- python使用urllib2抓取网页
- Python网页抓取urllib,urllib2,httplib[1]
- Python网页抓取urllib,urllib2,httplib[2]
- Python网页抓取urllib,urllib2,httplib[3]
- Python网页抓取urllib,urllib2,httplib[1]
- Python网页抓取urllib,urllib2,httplib[2]
- Python网页抓取urllib,urllib2,httplib[3]
- python 网页抓取urllib,urllib2,httplib
- Python网页抓取urllib,urllib2,httplib[1]
- Python网页抓取urllib,urllib2,httplib[2]
- Python网页抓取urllib,urllib2,httplib[3]
- Python网页抓取urllib,urllib2,httplib[3] .
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- 浮点数陷阱:转化为整数
- MySql字符处理
- 一位ACMer过来人的心得
- 暂时结束《C程序设计语言》
- Windbg命令学习5(!address和s和!vadump)
- Python 利用urllib2 lxml 抓取网页信息
- splay
- postfix make出错
- 动作按钮【Action Button】-可没你想的那样简单
- 设计模式-创建型:单例模式(1)
- ARM-Linux驱动移植--RTC(实时时钟)移植
- 控件视图以及控件视图的事件处理
- JAVA String.format 方法使用介绍
- 瞬间的细节:触摸与点击的不同