python中使用lxml与cssselect爬取电子书及链接
来源:互联网 发布:电商美工工资待遇 编辑:程序博客网 时间:2024/03/29 23:22
在浏览这个网站(http://blog.jobbole.com/29281/)时,发现电子书不错。
就想download下来,也正好在学习爬虫,以下就用lxml及cssselect的方式下载下来,也当是个小练习。
1.download函数
import lxml.htmldef download(url,user_agent='wswp',num_retires=2): print 'Downloading:' ,url headers = {'User-agent': user_agent} request = urllib2.Request(url,headers=headers) try: html = urllib2.urlopen(request).read() except urllib2.URLError as e: print "Downloading error:", e.reason html = None if num_retires>0: if hasattr(e,'code') and 500<= e.code <600: return download(url, user_agent,num_retires-1) return html
2.抓取数据(注意加粗的cssselect的使用)
if __name__ == "__main__": url = 'http://blog.jobbole.com/29281/' html = download(url) for i in itertools.count(1): tree = lxml.html.fromstring(html) try: td = tree.cssselect('ol>li>a')[i] book = td.text_content() href = td.get('href') print book,href except: break
数据抓取完毕。
0 0
- python中使用lxml与cssselect爬取电子书及链接
- python中lxml+cssselect爬取豆瓣电影Top250
- 关于lxml.cssselect
- python中lxml使用方式
- python中cssselect参数的说明
- python爬取txt电子书
- python爬取数据练习(二)---lxml数据爬取后存储在数据库mysql中
- Python: 爬取json下的table数据,lxml
- Python中安装lxml
- python爬虫之XPath与lxml的使用
- python中lxml的应用
- python lxml xpath 使用实例!
- python爬虫-lxml的使用
- BeautifulSoup及lxml使用小记
- Jython使用jsoup爬取网页标题与链接信息
- python中from lxml import etree,在使用第三方包lxml引入etree模块时报错:
- Python: Win7下使用 pip install lxml 无法安装lxml
- request 和 lxml 爬取代理IP
- nginx配置详情
- 按层打印二叉树 牛客网
- LoRaWAN协议解析 第5章 MAC命令
- Python--jieba分词
- 护眼色
- python中使用lxml与cssselect爬取电子书及链接
- hud 1556 线段树
- win10 pip安装tensorflow 失败
- javaScript初级逻辑运算或且真假命题
- C++学习之路-开篇
- Genymotion上不能安装APK软件的问题
- 游戏机厅的手舞足蹈跳舞机和E舞成名跳舞机多少钱一台?
- C语言基本数据类型
- 约瑟夫环问题