python 网络爬虫
来源:互联网 发布:工业怪兽 知乎 编辑:程序博客网 时间:2024/04/30 12:52
# -*- coding: cp936 -*-import string,urllib2path = "G:/New Knowledge/practice/python/tmp/"def baidu_tieba(url,begin_page,end_page): for i in range(begin_page,end_page+1): Name = path+string.zfill(i,5)+'.html'#自动填充 print '下载'+str(i)+'个网页,并存为'+Name f = open(Name,'w+') data = urllib2.urlopen(url+str(i)).read() f.write(data) f.close()bdurl = raw_input(u'input url 去除最后的数字\n')begin_page = raw_input("begin page")end_page = raw_input("endpage")if not bdurl: bdurl = 'http://tieba.baidu.com/p/2296017831?pn='if not begin_page: begin_page = 1if not end_page: end_page = 10baidu_tieba(bdurl,int(begin_page),int(end_page));
input url 去除最后的数字
http://tieba.baidu.com/p/301797825
begin page0
endpage9
下载1个网页,并存为00001.html
下载2个网页,并存为00002.html
下载3个网页,并存为00003.html
下载4个网页,并存为00004.html
下载5个网页,并存为00005.html
下载6个网页,并存为00006.html
下载7个网页,并存为00007.html
下载8个网页,并存为00008.html
下载9个网页,并存为00009.html
>>> ================================ RESTART ================================
>>>
input url 去除最后的数字
begin page
endpage
下载1个网页,并存为G:/New Knowledge/practice/python/tmp/00001.html
下载2个网页,并存为G:/New Knowledge/practice/python/tmp/00002.html
下载3个网页,并存为G:/New Knowledge/practice/python/tmp/00003.html
下载4个网页,并存为G:/New Knowledge/practice/python/tmp/00004.html
下载5个网页,并存为G:/New Knowledge/practice/python/tmp/00005.html
下载6个网页,并存为G:/New Knowledge/practice/python/tmp/00006.html
下载7个网页,并存为G:/New Knowledge/practice/python/tmp/00007.html
下载8个网页,并存为G:/New Knowledge/practice/python/tmp/00008.html
下载9个网页,并存为G:/New Knowledge/practice/python/tmp/00009.html
下载10个网页,并存为G:/New Knowledge/practice/python/tmp/00010.html
0 0
- python 网络爬虫代码
- Python实现网络爬虫
- Python实现网络爬虫
- Python实现网络爬虫
- python实现网络爬虫
- python网络爬虫
- python实现网络爬虫
- Python 网络爬虫
- python网络爬虫
- python 网络爬虫 北京公交
- [Python] 实现网络爬虫
- python实现网络爬虫
- Python]网络爬虫
- Python实现网络爬虫
- python 网络爬虫
- [Python] 实现网络爬虫
- Python-网络爬虫
- python 网络爬虫
- hdu Tian Ji -- The Horse Racing
- server Library [Apache Tomcat v6.0](unbound)
- 查看Oracle中表的索引是否存在
- 【草莓音乐节】现场美女大放送
- 网站如何获得高质量外链资源
- python 网络爬虫
- How to Setup and Secure Linux SSH Logins to use Private PEM Keys
- java动态编程简述
- 淘宝PHP SDK 2.0 剔除 lotusphp框架
- pb中截取混排字符串
- HDU 4784 Dinner Coming Soon(BFS+优先队列+状态转移)
- Qt Creator快捷键速查
- Thrift辅助类,用于简化Thrift编程
- C语言itoa()函数