python模拟翻页+提取相关信息
来源:互联网 发布:iphone实用软件 编辑:程序博客网 时间:2024/06/16 02:03
代码不全
# coding=utf-8import urllib,urllib2import reclass QSBK: #初始化函数 def _init_(self): self.pageIndex = 1 self.user_agent = '' self.headers = {'User-Agent':self.user_agent self.stories = [] #获取网页代码 def getpage(self,pageIndex): try: url='http://www.qiushibaike.com/hot/page/'+str(pageIndex) request = urllib2.Request(url,headers=self.headers) respons = urllib2.urlopen(request) return respons.read() except Exception,e: print e def getpageItems(self,pageIndex): pagecode = self.getpage(pageIndex) if not pagecode: print '页面加载失败' return None pattern = re.compile(,re.S) items = re.findall(pattern, pagecode) pageStories = [] for item in items: pageStories.append(item[0],item[1],item[2],item[3]) print '作者:',item[0] print '内容:',item[1] print '阅读:',item[2] print '评论:',item[3] return pageStories def loadpage(self): ifspider = QSBK()spider.getpage(1)
0 0
- python模拟翻页+提取相关信息
- python爬虫爬取斗鱼网站信息(模拟翻页操作)
- python提取piazza的信息
- Python提取CSV文件信息
- python提取GFF3文件信息
- 从一个XML树提取相关信息
- python emacs 相关信息
- python实现模拟按键,自动翻页看u17漫画
- python---pexpect的pxssh进行模拟ssh登陆返回相关命令信息
- Python libtorrent提取种子文件中的信息
- 利用Python提取心跳节律信息
- python爬虫信息提取的一般方法
- Python网络爬虫与信息提取(一)
- python网络爬虫笔记之信息提取
- python相关爬爬信息
- ListView模拟翻页
- 利用shell 提取 LINUX系统监控相关信息 -1
- 利用shell 提取 LINUX系统监控相关信息 -2
- bootstrap3学习:响应式布局layout
- FFMPEG解码流程理解搜集整理及tutorial5的理解,主要是音视频同步
- Universal_image-Loader源码阅读(22)-disc/DiskCache
- scala学习笔记一(基础,安装及数据类型)
- 【Java并发编程】之十:使用wait/notify/notifyAll实现线程间通信的几点重要说明(r)
- python模拟翻页+提取相关信息
- HTML 基本表格制作
- 高版本orcale导出的dmp导入低版本oracle报错:oracle 导入 dmp 不是有效的导出文件, 头部验证失败
- 基本排序算法的JavaScript实现
- C#多线程(下)
- 多线程学习一
- 2016年最新iOS面试题精选总结 --- 综述(一)
- windows检查端口占用
- Altium下元器件中英文对照