简单的百度贴吧爬虫
来源:互联网 发布:各国战争潜力知乎 编辑:程序博客网 时间:2024/06/06 15:35
最近在学爬虫,看了点视频学了点东西,写了一个百度贴吧的爬虫上来
目前只是把爬取网页信息,存储到本地
#-*- coding:utf-8 -*-# 识别中文注释 import urllib2def load_page(url):user_agent ="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11"headers = {'User-Agent':user_agent}req = urllib2.Request(url,headers = headers)response = urllib2.urlopen(req)page = response.read()return pagedef tieba_spider(url,beginPage,endPage):'''贴吧小爬虫'''for i in range(beginPage,endPage+1): myurl = url + str(50*(i-1))print "url :" + myurlhtml = load_page(myurl)file_name =str(i)+".html"writeFile(file_name,html)def writeFile(file_name,txt):f = open(file_name,'w')f.write(txt)f.close()if __name__ == "__main__":url = raw_input("please input the url :")beginPage = int(raw_input("begin : "))endPage = int(raw_input("end : "))tieba_spider(url,beginPage,endPage)
过几天有时间再学点正则表达式加进去
url:http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=
1 0
- 简单的百度贴吧爬虫
- 简单爬虫爬取百度贴吧
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- Python2.7网络爬虫---简单的爬取百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- python写爬虫技巧(五):简单的百度贴吧网页爬虫
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫 Python 3.6 改写
- 百度贴吧爬虫
- 百度贴吧爬虫
- OpenWrt-uci脚本命令
- CSS display 属性
- operatpr
- div 正常和字模式 和 怪异盒子模式
- React Native项目修改包名(Android版)
- 简单的百度贴吧爬虫
- IOS 传感器Core Motion相关简述
- 禁止 EditText会接收焦点
- 华为C语言编程规范—代码测试、维护
- Android studio 上SVN的使用和配置
- MFC对话框扩展区域显示(可伸缩对话框区域)
- 290. Word Pattern [easy] (Python)
- android 计算器(GridView实现)
- React Native 中 ScrollView 性能探究