成功抓取csdn阅读量过万博文
来源:互联网 发布:上海云计算公司 编辑:程序博客网 时间:2024/04/30 00:48
http://images.cnblogs.com/cnblogs_com/elesos/1120632/o_111.png
var commentscount = 1; 嵌套的评论算一条,这个可能有一点点误差,不过不影响
var username = "miniblog";
阅读数在2w的才保存
先选一个
http://blog.csdn.net/leixiaohua1020/article/details/15811977
提取链接时,只提取visited_num>2w的
//*[@id="rasss"]
如何不提取其它url,只提取 http://blog.csdn.net/leixiaohua1020/article/details/15811977
呢
必须含有aritcle关键字
xpath提取页面中script里声明的变量值
<script type="text/javascript">
var username = "miniblog";
var _blogger = username;
var blog_address = "http://blog.csdn.net/miniblog";
var static_host = "http://csdnimg.cn/release/phoenix/";
var currentUserName = "elesos";
var fileName = '50214911';
var commentscount = 0;
var islock = false
window.quickReplyflag = true;
var totalFloor = 0;
var isBole = false;
var isDigg = false;
var isExpert=false;
var isAdm = false;
</script>
response.xpath('/html/head/script[1]').re('username = "(.+)"')
response.xpath('/html/head/script[1]').re("fileName = '(.+)'")
response.xpath('/html/head/script[1]').re("commentscount = (.+);")
注意元素是从1开始的 ,如div[1]表示第一个,不是div[0]
xpath最外层最好用单引号!除非必须使用双引号(比如里面有单引号了)
这种页面目前不能爬
http://blog.csdn.net/u010164190/article/details/53166334
不要执迷于技术了,把学一门技术所花的精力用一半到其它领域,如财经等,可能会有更多收获。
阅读全文
0 0
- 成功抓取csdn阅读量过万博文
- csdn blog后台首页中的日点击量一直没有变过。
- 自己的CSDN博文阅读量简单分析(至2016年1月)
- CSDN博客阅读量大于100万/次 大牛排行榜
- 被CSDN删除的32万阅读量的文章--CTreeCtrl 控件使用总结
- 文章阅读量
- 刷简书阅读量
- 刷简书阅读量
- 刷新csdn浏览量
- 庆祝点击量过万
- BLOG点击量过6000
- 抓取csdn的数据
- 阅读过的书籍
- 阅读过的书
- 今日头条刷阅读量方法
- 新闻阅读量的实现
- 测试Python刷阅读量
- 成功抓取douban 所有电影
- hexo进阶使用
- HTML-css入门简介
- 如何修复Google Chrome上的“ERR_SSL_PROTOCOL_ERROR”
- 关于微服务和 Java 需要知道的 5 件事
- Lintcode:斐波那契数列
- 成功抓取csdn阅读量过万博文
- 通过汇编一个简单的C程序,分析汇编代码理解计算机是如何工作的
- 【论文翻译】Mask R-CNN
- 百度API代码调取
- 背景乱码动态效果
- SpringBoot非官方教程 | 第二十篇: 处理表单提交
- 简单题之勾股定理
- 乌镇大会前两天,互联网大佬演讲干货汇总
- 【XML】元素