python实现下载韩寒博客中的所有文章,在本地存储
来源:互联网 发布:jquery.tooltips.js 编辑:程序博客网 时间:2024/06/04 17:59
# -*- coding:utf-8 -*- # import urllib,requestsimport bs4,os,reurlList = []urlListZuiHou = []urlPurpose = 'http://blog.sina.com.cn/twocold'#下载韩寒博客网页res = requests.get(urlPurpose)#检查是否下载成功try: res.raise_for_status()except Exception as exc: print('There was a problem:%s'%(exc))#通过正则表达式在下载网页中匹配博文地址存放在urlList列表中 patternUrl = r'http://blog.sina\.com\.cn/s/blog.+\.html'regex = re.compile(patternUrl)urlList = re.findall(regex,res.text)#去掉重复的URl路径项,存放在列表urlListZuiHou中 for i in range(0,len(urlList),4): urlListZuiHou.append(urlList[i])#循环遍历所有博客地址,并下载保存到本地文件for i in range(len(urlListZuiHou)): resBlog = urllib.request.urlopen(urlListZuiHou[i]) #转化下载文件的编码格式utf-8 html = str(resBlog.read(),'utf-8')#创建BeautifulSoup对象,并查找匹配博客标题 bs4BOne = bs4.BeautifulSoup(html) bs4BlogBiaoTi = bs4BOne.select('title')#以博客标题为文件名称,将每一篇博客保存为html文件 openBlogFileHTML = open('C:\\Users\\Nick\\Desktop\\python\\drawing\\2\\quiz\\'+str(bs4BlogBiaoTi[0].getText())+'.html','at') openBlogFileHTML.write(html) openBlogFileHTML.close()
0 0
- python实现下载韩寒博客中的所有文章,在本地存储
- 【Python】多线程下载韩寒博客文章
- Python爬虫——下载韩寒博客文章
- CSDN博客专栏文章批量下载脚本[python实现]
- 【python】爬虫2——下载亦舒博客首页所有文章
- python实现下载小说并保存在本地
- 本博客所有文章均在网站
- Python网络爬虫实训:如何下载韩寒博客文章
- 百度空间博客文章下载 [Python 源码]
- 百度空间博客文章下载 [python]
- Python项目实战之下载博客文章
- python_爬取博客文章下载到本地
- Ruby:多线程队列(Queue)下载博客文章到本地
- Python登录并获取CSDN博客所有文章列表
- 使用Python urllib2下载CSDN博客列表到本地
- 【python】爬虫1——下载博客文章
- 实现截屏并存储在本地
- Windows Live Writer博客发布工具测试在本地发布博客文章到csdn
- 实现performSelector 传递多个参数
- 5.1. ApplicationContext的事件机制
- 文章标题
- Linux下内存使用分析思路
- 我为什么鼓励工程师写blog
- python实现下载韩寒博客中的所有文章,在本地存储
- JavaScript基础(数据类型)
- Dll导出函数的两种方式
- 聚类算法——python实现k-means算法
- 多线程笔记(一)
- JS获取URL参数值的四种方法(转)
- android 图片 旋转全屏 半屏
- jquery ajax error函数详解
- 多线程笔记(二)