学习记录:python百度贴吧爬虫
来源:互联网 发布:nginx 目录跳转 编辑:程序博客网 时间:2024/05/19 13:58
http://www.kuqin.com/shuoit/20150424/345877.html
继续从酷勤网上学习相关python爬虫。
这次的代码是面向百度贴吧的爬虫
学习的过程中遇到的些许问题:
1.按照顺序逐渐添加代码的过程中,由于第一段代码的getPage()方法返回的是response,所以在后面添加代码的时候 page=self.getPage(1)
…………
result=re.search(pattern,page)
会报错
原因是由于,self.getPage(1)在之前的方法里返回的结果是response,正确应该返回response.read()或者 page=self.getPage(1).read()方能运行成功
2.result.group(1) 这里的group(1)是输出匹配的第一个内容,假如是group(0)则是输出所以匹配字段。
3.尝试从其他文件导入tool.py,发现用import tool 会出现找不到tool里的变量问题,而用from tool import *则没这种问题。ps.加入要从其他文件夹里引用文件,则需要在对应文件夹中加入_ inti _.py的文件。
新建一个init.py 的空文件,此时的该文件夹不再是一个普通的文件夹,而是一个包 package
4..py文件引入后会产生一个.pyc文件,方便下次引入,提高效率
5.re.compile()和re.sub()用起来挺方便的
__author__='pwp'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport time#百度贴吧爬虫类#处理页面标签类class Tool: #取出img标签,7位长空格 removeImg = re.compile('<img.*?>| {7}|') #删除超链接标签 removeAddr = re.compile('<a.*?>|</a>') #把换行的标签换为\n replaceLine = re.compile('<tr>|<div>|</div>|</p>') #将表格制表<td>替换为t replaceTD = re.compile('<td>') #把段落开头换位\n加两空格 replacePare = re.compile('<p.*?>') #讲换行符或者双换行符替换成\n replaceBR = re.compile('<br><br>|<br>') #讲其余标签剔除 removeExtraTag = re.compile('<.*?>') def replace(self,x): x = re.sub(self.removeImg,"",x) x = re.sub(self.removeAddr,"",x) x = re.sub(self.replaceLine,"\n",x) x = re.sub(self.replaceTD,"\t",x) x = re.sub(self.replacePare,"\n ",x) x = re.sub(self.replaceBR,"\n",x) x = re.sub(self.removeExtraTag,"",x) return x.strip()class BDTB: #初始化,传入基地址.是否只看楼主的参数 def __init__(self,baseUrl,seeLZ,floorTag): self.baseURL = baseUrl self.seeFlag = str(seeLZ) self.seeLZ = '?see_lz='+str(seeLZ) #HTML标签剔除工具 self.tool = Tool() #全局变量file,文件写入操作对象 self.file = None #楼层标号,初始为1 self.floor = 1 #默认的标题,如果没成功获取标题的化就用这个标题 self.defaultTitle = u"百度贴吧" #是否写入楼分隔符的标记 self.floorTag = floorTag self.time=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) #传入页面,获取该页帖子的代码 def getPage(self,pageNum): try: url = self.baseURL+self.seeLZ+'&pn='+str(pageNum) request = urllib2.Request(url) # print url response = urllib2.urlopen(request) # print response.read() return response.read().decode('utf-8') except urllib2.URLError, e: if hasattr(e,"reason"): print u"链接百度贴吧失败,错误原因",e.reason return None #获取帖子标题 def getTitle(self,page): #page = self.getPage(1) pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S) # pattern = re.compile('<li.*?class="l_reply_num.*?<span.*?class="red.*?<span.*?class="red">(.*?)</span>',re.S) result = re.search(pattern,page) if result: # print result.group(1) # print '1' return result.group(1).strip() else: # print '2' return None def getPageNum(self,page): # page = self.getPage(1) pattern = re.compile('<li.*?class="l_reply_num.*?<span.*?class="red.*?<span.*?class="red">(.*?)</span>',re.S) # pattern = re.compile('<div.*?id="post_content_.*?>(.*?)</div>',re.S) result = re.search(pattern,page) if result: #print result.group(1).strip() return result.group(1).strip() else: return None def getContent(self,page): #page = self.getPage(pageN) pattern = re.compile('<div.*?id="post_content_.*?>(.*?)</div>',re.S) items = re.findall(pattern,page) contents=[] #floor = 1 # print self.tool.replace(items[1]) for item in items: # print floor,u"楼--------------------------------------------" # print self.tool.replace(item) # floor += 1 content = "\n"+self.tool.replace(item)+"\n" contents.append(content.encode('utf-8')) return contents def setFileTitle(self,title): #如果标题不是None,即成功获取到标题 if title is not None: if self.seeFlag == '1': self.file = open(self.time+u"_只看楼主_"+title+".txt","w+") else: self.file = open(self.time+title+".txt","w+") else : if self.seeFlag == '1': self.file = open(self.time+u"_只看楼主_"+self.defaultTitle+".txt","w+") else: self.file = open(self.time+self.defaultTitle+".txt","w+") #self.file = open("只看楼主"+self.defaultTitle+".txt","w+") def writeData(self,contents): #向文件写入每一楼的信息 for item in contents: if self.floorTag == '1': #楼之间的分隔符 floorLine = "\n"+str(self.floor)+u"--------------------------------------------------------------------------" self.file.write(floorLine) self.file.write(item) self.floor += 1 def start(self): indexPage = self.getPage(1) pageNum = self.getPageNum(indexPage) title = self.getTitle(indexPage) self.setFileTitle(title) if pageNum == None: print "URL已失效,请重试" return try: print "该帖子共有"+str(pageNum)+"页" for i in range(1,int(pageNum)+1): print "正在写入第"+str(i)+"页数据" page = self.getPage(i) contents = self.getContent(page) self.writeData(contents) #写入异常 except IOError,e: print "写入异常,原因"+e.message finally: print "写入任务完成" print u"请输入帖子代号"baseURL = 'http://tieba.baidu.com/p/3138733512'seeLZ = raw_input("是否只获取楼主发言,是输入1,否输入0\n")floorTag = raw_input("输入写入楼层信息,是输入1,否输入0\n")bdtb = BDTB(baseURL,seeLZ,floorTag)bdtb.start()#bdtb.getPage(1)#bdtb.getTitle()#bdtb.getPageNum()#bdtb.getContent(1)#bdtb.getContent(1)
0 0
- 学习记录:python百度贴吧爬虫
- Python爬虫学习(1):百度贴吧
- Python爬虫学习2--百度贴吧
- Python爬虫学习记录(1)——百度贴吧图片下载
- python百度贴吧爬虫
- python 百度贴吧爬虫
- python- 百度贴吧爬虫
- [python]百度贴吧爬虫
- Python爬虫入门学习例子之百度贴吧
- python爬虫:下载百度贴吧图片学习笔记
- 学习Python爬虫记录
- python网络爬虫学习(二)一个爬取百度贴吧的爬虫程序
- Python爬虫学习记录(0)——Python 爬虫抓站 记录(虾米,百度,豆瓣,新浪微博)
- Python 爬虫获取百度贴吧图片
- python爬虫百度贴吧标题数据
- python实现百度贴吧爬虫
- python爬虫实战2-百度贴吧
- python爬虫--抓取百度贴吧
- 机器学习门径初窥
- 微信好友在阅读哪些原创文章?
- 博客搬家至博客园http://www.cnblogs.com/SweetBeens/
- 养兔子
- io流,入门例子代码
- 学习记录:python百度贴吧爬虫
- C++指针与地址详解 _0
- Fighting_小银考呀考不过四级
- 为python解释器添加tab补全
- tcp/ip 网络编程 socket
- c++教程(二十一: Polymorphism)
- ccf试题 折点计数
- eclipse启动tomcat时出现一些莫名的错误
- 三国佚事——巴蜀之危