csdn博客爬虫更新
来源:互联网 发布:淘宝网商贷款逾期了 编辑:程序博客网 时间:2024/03/29 20:36
几天没上csdn博客,不知道为什么给我csdn首页改了, 不是以前的网页布局了,所以之前写的csdn博客爬虫也就宣告失效,所以今天修改了下之前写的xpath爬虫,正则爬虫就没改了,改的有点麻烦
# -*- coding:gbk -*-import sysimport requestsimport refrom lxml import etreefrom lxml import html as htdef download(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"} html=requests.get(url,headers=headers).text return htmlhtml2=download("http://blog.csdn.net/Joliph")selector2=etree.HTML(html2)pagelist=selector2.xpath('//*[@id="papelist"]/a[last()-2]/text()')[0]#这里有有个潜在的问题,在我博客写到5页以上时出现...后无法判断页数pagelist=int(pagelist)for page in range(1,pagelist+1): url="http://blog.csdn.net/Joliph/article/list/"+str(page) html=download(url) selector=etree.HTML(html) titlelist=selector.xpath('//*[@class="link_title"]/a/text()') datelist=selector.xpath('//*[@class="article_manage"]/span[1]/text()') #/text()!!!!!!!!!!!!!!!!!!!!!!! number=len(titlelist) for i in range(1,number+1): tree=ht.fromstring(titlelist[i-1]) strcom=tree.xpath('string(.)') print(datelist[i-1]+"----"+strcom)
阅读全文
0 0
- csdn博客爬虫更新
- 暂停更新CSDN博客
- CSDN博客停止更新.....
- csdn 博客不再更新
- MWeb 更新CSDN博客
- Python爬虫实例- CSDN博客爬虫
- 鄙人自制csdn博客爬虫
- Python爬虫抓取csdn博客
- 通过爬虫迁移CSDN博客
- 我的CSDN博客更新
- CSDN个人博客更新日志
- 超简单Nsoup版Csdn博客爬虫
- python爬虫之csdn刷博客访问量
- JAVA爬虫挖取CSDN博客文章
- python爬虫代码-CSDN博客下载
- python 爬虫 CSDN博客下载-改进版
- 简单CSDN爬虫,实现博客访问量记录
- php刷csdn博客访问,爬虫测试
- python数组过滤,输出满足条件的元素,例如python输出一维矩阵中的非0元素
- Android之SQLite数据库
- .NET Core资源汇总
- Spring 注解区别以及应用
- ajax 一步详解
- csdn博客爬虫更新
- 树状数组求逆序对
- (转)Qt 的线程与事件循环
- JN-UG-3116 JN51xx Core Utilities User Guide_20170817
- 关于robotframework,app,appium的xpath定位问题及常用方法
- docker安装
- Toolbar和Actionbar需要注意的一些问题
- lake counting---dfs(深度搜索算法)
- autoitlibrary安装失败