用python写网络爬虫-提取我的博客内容
来源:互联网 发布:印象笔记破解版 mac 编辑:程序博客网 时间:2024/05/22 14:29
基本和上次写的爬取不得姐视频差不太多,也是正则表达式方法,所以这次就直接贴代码了
import urllib.requestimport urllib.errorimport redef download(url): try: headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"} request=urllib.request.Request(url,headers=headers) html=urllib.request.urlopen(request).read() html=html.decode('UTF-8') return html except: a=1for page in range(1,3): url="http://blog.csdn.net/Joliph/article/list/"+str(page) html=download(url) titlereg=r'<h3 class="list_c_t"><a href=".*?">(.*?)</a></h3>' titlelist=re.findall(titlereg,html) yearreg=r'<div class="date_t"><span>(.*?)</span>' yearlist=re.findall(yearreg,html) monthreg=r'<div class="date_t"><span>.*?</span><em>(.*?)</em></div>' monthlist=re.findall(monthreg,html) dayreg=r'<div class="date_b">(.*?)</div>' daylist=re.findall(dayreg,html) number=len(titlelist) for i in range(1,number+1): print(yearlist[i-1]+"."+monthlist[i-1]+"."+daylist[i-1]+"----"+titlelist[i-1])
阅读全文
0 0
- 用python写网络爬虫-提取我的博客内容
- Python 即时网络爬虫项目: 内容提取器的定义
- Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
- Python网络爬虫与信息提取-Day7-基于bs4库的HTML内容遍历方法
- 用python写网络爬虫
- 用Python写网络爬虫
- 我写的第一个用Python写的爬虫
- 读书笔记--用Python写网络爬虫01--网络爬虫简介
- 用python写网络爬虫-1.网络爬虫简介
- 用python写网络爬虫读书笔记 第一章网络爬虫简介
- Python写的网络刷博器爬虫
- Python写的网络爬虫程序
- 用python 写网络爬虫 学习笔记
- 《用python写网络爬虫》笔记1
- 《用python写网络爬虫》笔记2
- 用python写网络爬虫笔记
- 《用python写网络爬虫》笔记3
- 《用python写网络爬虫》第一章
- Swift_学习笔记_枚举和结构体
- 牛顿法和拟牛顿法
- UVA-524 Prime Ring Problem 素数环
- 8.8 分数拆分split
- 【tyvj1520】树的直径(dfs||树形dp)
- 用python写网络爬虫-提取我的博客内容
- SpringCloud微服务系列(5): 服务容错断路器Hystrix
- dom4j语法(xml)
- POI实现EXCEL单元格合并及边框样式
- jquery 单选按钮获取选中的值
- 多线程面试题
- Ubuntu U盘启动盘制作步骤
- 八月知识点总结
- spring定时任务详解(@Scheduled注解)