用Python3实现一个简单的爬虫。
来源:互联网 发布:97网络含义是什么 编辑:程序博客网 时间:2024/05/16 09:18
import urllibimport urllib.requestdef loadPage(url,filename): """ 作用:根据url发送请求,获取html数据; :param url: :return: """ request=urllib.request.Request(url) html1= urllib.request.urlopen(request).read() return html1.decode('utf-8')def writePage(html,filename): """ 作用将html写入本地 :param html: 服务器相应的文件内容 :return: """ with open(filename,'w') as f: f.write(html) print('-'*30)def tiebaSpider(url,beginPage,endPage): """ 作用贴吧爬虫调度器,负责处理每一个页面url; :param url: :param beginPage: :param endPage: :return: """ for page in range(beginPage,endPage+1): pn=(page - 1)*50 fullurl=url+"&pn="+str(pn) print(fullurl) filename='第'+str(page)+'页.html' html= loadPage(url,filename) writePage(html,filename)if __name__=="__main__": kw=input('请输入你要需要爬取的贴吧名:') beginPage=int(input('请输入起始页')) endPage=int(input('请输入结束页')) url='https://tieba.baidu.com/f?' kw1={'kw':kw} key = urllib.parse.urlencode(kw1) fullurl=url+key tiebaSpider(fullurl,beginPage,endPage)
为了返回的html一定要进行decode编码一下。
阅读全文
0 0
- 用Python3实现一个简单的爬虫。
- 一个简单的python3爬虫
- Python3实现简单爬虫
- python3实现简单爬虫功能
- Python3.4 写一个简单的定向爬虫
- python3.6.2实现的简单爬虫爬取百度百科
- 一个简单的爬虫的实现
- PHP实现的一个简单的爬虫
- 用java实现一个简单的网络爬虫
- 一个简单的爬虫技术实现
- 一个简单多线程爬虫的实现
- python实现一个简单的爬虫
- python一个简单爬虫的实现
- 一个PHP实现的轻量级简单爬虫
- 学习:C#实现一个简单的爬虫
- 一个PHP实现的轻量级简单爬虫
- Python实现一个简单的图片爬虫
- 编写简单的网络爬虫 (python3.2)
- 最令人头疼的 Python 问题
- Django vs SQLAlchemy:哪个 Python ORM 更好
- 2017年中国程序员调查分析:大数据就业前景广阔
- IntelliJ IDEA 学习笔记
- Andorid架构之BaseActivity
- 用Python3实现一个简单的爬虫。
- 关于C语言的理解和编译过程
- Android友盟微信分享失败原因
- httpclient 4.5.2 学习随笔(1)
- Druid多数据源配置
- 如何切换多个GitHub账号,idea github 账号修改不生效
- Git误删本地master怎么办?
- Storm入门教程(一)
- Java bytecode