python_爬取博客文章下载到本地
来源:互联网 发布:淘宝群控系统骗局 编辑:程序博客网 时间:2024/06/05 04:41
学习python一段时间了,爬两个网页练练手,该源代码是爬取韩寒博客的所有文章,并将文章链接下载到本地,关于将博客纯文字下载到本地见博主另外一篇文章:# -*- coding: utf-8 -*-import urllibpage=1url = [' '] *350i = 1while page <=7: menu = "http://blog.sina.com.cn/s/articlelist_1191258123_0_"+str(page)+".html" print menu conn = urllib.urlopen(menu).read() #读取博客首页 #print conn title = conn.find(r'<a title=')#找到文章标题 href = conn.find(r'href=',title)#获取链接的开始序号,相对位置 html = conn.find(r'.html',href)#获取链接的结束序号 while i<= 320 and title != -1 and href != -1 and html != -1: url[i]= conn[href+6:html+5]#列表加减获取链接地址 print "第"+str(i)+"篇文章的地址是:" + url[i] file = url[i] #下载文章 content = urllib.urlopen(file).read()#读取该链接的文章内容 filename = file[26:] print filename + "已下载" open(filename, 'w').write(content) #下载文章到本地,默认当前目录 i += 1 title = conn.find(r'<a title' ,html) href = conn.find(r'href=',title)#获取链接的开始序号,相对位置 html = conn.find(r'.html',href)#获取链接的结束序号 page += 1else: print "-------THE END!-----------"http://blog.csdn.net/hpu_a/article/details/51518990
0 0
- python_爬取博客文章下载到本地
- python_爬取博客内容
- Ruby:多线程队列(Queue)下载博客文章到本地
- python 爬取csdn网页并保存博客到本地
- 爬取网络图片并下载到本地
- 下载博客文章并自动转换成pdf保存到本地
- scrapy爬取博客文章
- python_爬取新浪新闻
- python_爬取音乐部落
- 博客园文章爬取代码
- 博客文章数据的爬取
- 使用BeautifulSoup爬取CSDN博客文章
- Python简单知乎爬虫--爬取页面的图片并下载到本地
- Python简单知乎爬虫--爬取页面的图片并下载到本地
- 用python爬虫爬取moodle全部课件并下载到本地
- 使用java语言爬取网络图片并下载到本地
- 用Java和webmagic爬取图片并下载到本地(动态网页)
- 微信文章图片防盗链,下载到本地
- 文件工具
- BZOJ 1040 骑士
- Codeforces Round #352 (Div. 2) C. Recycling Bottles
- (sandbox)沙盒文件获取总结
- EasyDarwin开源流媒体社区视频教程
- python_爬取博客文章下载到本地
- C# 循环产生多个随机数重复问题
- ios 机器语言
- Python变量
- SharedPreferences工具类(2种)
- redis原理
- JSONP伪同步请求及如何使用GBK 进行encodeURIComponet 编码
- visual studio 运行框
- Android 最火的快速开发框架AndroidAnnotations使用详解