学习记录：python百度贴吧爬虫

来源：互联网发布：nginx 目录跳转编辑：程序博客网时间：2024/05/19 13:58

http://www.kuqin.com/shuoit/20150424/345877.html
继续从酷勤网上学习相关python爬虫。
这次的代码是面向百度贴吧的爬虫

学习的过程中遇到的些许问题：
1.按照顺序逐渐添加代码的过程中，由于第一段代码的getPage()方法返回的是response，所以在后面添加代码的时候 page=self.getPage(1)
…………
result=re.search(pattern,page)
会报错
原因是由于，self.getPage(1)在之前的方法里返回的结果是response，正确应该返回response.read()或者 page=self.getPage(1).read(）方能运行成功
2.result.group(1) 这里的group(1)是输出匹配的第一个内容，假如是group(0)则是输出所以匹配字段。
3.尝试从其他文件导入tool.py，发现用import tool 会出现找不到tool里的变量问题，而用from tool import *则没这种问题。ps.加入要从其他文件夹里引用文件，则需要在对应文件夹中加入_ inti _.py的文件。

新建一个init.py 的空文件，此时的该文件夹不再是一个普通的文件夹，而是一个包 package

4..py文件引入后会产生一个.pyc文件，方便下次引入，提高效率

5.re.compile()和re.sub()用起来挺方便的

__author__='pwp'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport time#百度贴吧爬虫类#处理页面标签类class Tool:        #取出img标签,7位长空格        removeImg = re.compile('<img.*?>| {7}|')        #删除超链接标签        removeAddr = re.compile('<a.*?>|</a>')        #把换行的标签换为\n        replaceLine = re.compile('<tr>|<div>|</div>|</p>')        #将表格制表<td>替换为t        replaceTD = re.compile('<td>')        #把段落开头换位\n加两空格        replacePare = re.compile('<p.*?>')        #讲换行符或者双换行符替换成\n        replaceBR = re.compile('<br><br>|<br>')        #讲其余标签剔除        removeExtraTag = re.compile('<.*?>')        def replace(self,x):                x = re.sub(self.removeImg,"",x)                x = re.sub(self.removeAddr,"",x)                x = re.sub(self.replaceLine,"\n",x)                x = re.sub(self.replaceTD,"\t",x)                x = re.sub(self.replacePare,"\n  ",x)                x = re.sub(self.replaceBR,"\n",x)                x = re.sub(self.removeExtraTag,"",x)                return x.strip()class BDTB:    #初始化,传入基地址.是否只看楼主的参数    def __init__(self,baseUrl,seeLZ,floorTag):        self.baseURL = baseUrl        self.seeFlag = str(seeLZ)        self.seeLZ = '?see_lz='+str(seeLZ)        #HTML标签剔除工具        self.tool = Tool()        #全局变量file,文件写入操作对象        self.file = None        #楼层标号,初始为1        self.floor = 1        #默认的标题,如果没成功获取标题的化就用这个标题        self.defaultTitle = u"百度贴吧"        #是否写入楼分隔符的标记        self.floorTag = floorTag        self.time=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))    #传入页面,获取该页帖子的代码    def getPage(self,pageNum):        try:            url = self.baseURL+self.seeLZ+'&pn='+str(pageNum)            request = urllib2.Request(url)        #   print url            response = urllib2.urlopen(request)        #   print response.read()               return response.read().decode('utf-8')        except urllib2.URLError, e:            if hasattr(e,"reason"):                print u"链接百度贴吧失败,错误原因",e.reason            return None    #获取帖子标题    def getTitle(self,page):        #page = self.getPage(1)        pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S)    #   pattern = re.compile('<li.*?class="l_reply_num.*?<span.*?class="red.*?<span.*?class="red">(.*?)</span>',re.S)        result = re.search(pattern,page)        if result:        #   print result.group(1)        #   print '1'            return result.group(1).strip()        else:        #   print '2'            return None    def getPageNum(self,page):    #   page = self.getPage(1)        pattern = re.compile('<li.*?class="l_reply_num.*?<span.*?class="red.*?<span.*?class="red">(.*?)</span>',re.S)    #   pattern = re.compile('<div.*?id="post_content_.*?>(.*?)</div>',re.S)        result = re.search(pattern,page)        if result:            #print result.group(1).strip()            return result.group(1).strip()        else:            return None    def getContent(self,page):        #page = self.getPage(pageN)        pattern = re.compile('<div.*?id="post_content_.*?>(.*?)</div>',re.S)        items = re.findall(pattern,page)        contents=[]        #floor = 1    #   print self.tool.replace(items[1])        for item in items:        #   print floor,u"楼--------------------------------------------"        #   print self.tool.replace(item)        #   floor += 1            content = "\n"+self.tool.replace(item)+"\n"            contents.append(content.encode('utf-8'))        return contents    def setFileTitle(self,title):        #如果标题不是None,即成功获取到标题        if title is not None:            if self.seeFlag == '1':                self.file = open(self.time+u"_只看楼主_"+title+".txt","w+")            else:                self.file = open(self.time+title+".txt","w+")        else :            if self.seeFlag == '1':                self.file = open(self.time+u"_只看楼主_"+self.defaultTitle+".txt","w+")                        else:                self.file = open(self.time+self.defaultTitle+".txt","w+")            #self.file = open("只看楼主"+self.defaultTitle+".txt","w+")    def writeData(self,contents):        #向文件写入每一楼的信息        for item in contents:            if self.floorTag == '1':                #楼之间的分隔符                floorLine = "\n"+str(self.floor)+u"--------------------------------------------------------------------------"                self.file.write(floorLine)                self.file.write(item)                self.floor += 1    def start(self):        indexPage = self.getPage(1)        pageNum = self.getPageNum(indexPage)        title = self.getTitle(indexPage)        self.setFileTitle(title)        if pageNum == None:            print "URL已失效,请重试"            return         try:            print "该帖子共有"+str(pageNum)+"页"            for i in range(1,int(pageNum)+1):                print "正在写入第"+str(i)+"页数据"                page = self.getPage(i)                contents = self.getContent(page)                self.writeData(contents)            #写入异常        except IOError,e:            print "写入异常,原因"+e.message        finally:            print "写入任务完成"            print u"请输入帖子代号"baseURL = 'http://tieba.baidu.com/p/3138733512'seeLZ = raw_input("是否只获取楼主发言,是输入1,否输入0\n")floorTag = raw_input("输入写入楼层信息,是输入1,否输入0\n")bdtb = BDTB(baseURL,seeLZ,floorTag)bdtb.start()#bdtb.getPage(1)#bdtb.getTitle()#bdtb.getPageNum()#bdtb.getContent(1)#bdtb.getContent(1)

0 0