学习爬虫后写了篇爬韩寒新浪博客文章的代码
来源:互联网 发布:无线有限制的网络连接 编辑:程序博客网 时间:2024/05/01 16:30
import urllibimport timeurl = ['']*50i=0page = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()title = page.find(r'<a title=')href = page.find(r'href=',title)html = page.find(r'.html',href)while title!=-1 and href!=-1 and html!=-1 and i < 50:url[i]= page[href +6:html+5]print url[i]title = page.find(r'<a title=',html)href = page.find(r'href=',title)html = page.find(r'.html',href)i+=1else:print('Find end!')j=0while j<50:cotent = urllib.urlopen(url[j]).read()open(r'hanhan/'+url[j][-26:],'w+').write(cotent)time.sleep(15)j=j+1else:print('Download all!')
0 0
- 学习爬虫后写了篇爬韩寒新浪博客文章的代码
- Python3爬虫韩寒新浪博客文章
- 写了一段时间博客后的反思... ...
- 机器学习系列文章【转自我的新浪博客】
- python新浪博客爬虫(纯自己写)
- 网络爬虫基本原理(文章转自博客园:wawlian博客,文章很不错,转了一起学习)
- 今天终于把新浪博客中的文章转过来了~~~
- 博客终于开始写文章了
- Hello Python!用python写一个抓取CSDN博客文章的简单爬虫
- 自己写的新浪博客下载器~~
- 以前在新浪写的博客
- 关于httpqueue的部分以后将在新浪博客上写了
- 写代码后的学习与总结
- 写了一大串代码后
- 开始写博客文章,记录学习的各个方面
- 韩寒的博客文章---爬虫
- 韩寒的博客文章---爬虫2
- 韩寒的博客文章---爬虫3
- VIM命令模式与输入模式切换
- C++ 拷贝构造函数 赋值构造函数
- Java之建造者模式-Builder Pattern
- Caffe + Ubuntu 14.04 64bit + CUDA 6.5 配置说明
- Lock 与Synchronized
- 学习爬虫后写了篇爬韩寒新浪博客文章的代码
- iOS关于iPhone6和iPhone6 Plus的屏幕适配问题
- 中文分词词典构造简述
- 机房收费系统(一)——上下机、总结
- CSS标签
- 插入排序-【Shell排序】
- HDU 5058 So easy(STL set运用)
- windbg win7 本地调试
- nyoj642牛奶