python实现网络爬虫

来源:互联网 发布:网络写手的收入 编辑:程序博客网 时间:2024/04/29 05:37

http://blog.csdn.net/lianxiang_biancheng/article/details/7674844

一.简介

        该爬虫程序包含2个类,一个管理整个crawling进程(Crawler),一个检索并解析每一个下载的web页面(Retriever)。

二.程序

[python] view plaincopy
  1. #!/usr/bin/env python  
  2.   
  3. from sys import argv  
  4. from os import makedirs,unlink,sep  
  5. from os.path import dirname,exists,isdir,splitext  
  6. from string import replace,find,lower  
  7. from htmllib import HTMLParser  
  8. from urllib import urlretrieve  
  9. from urlparse import urlparse,urljoin  
  10. from formatter import DumbWriter,AbstractFormatter  
  11. from cStringIO import StringIO  
  12.   
  13. class Retriever(object): #download web pages  
  14.   def __init__(self,url):  
  15.     self.url = url  
  16.     self.file = self.filename(url)  
  17.   
  18.   def filename(self,url,deffile='index.htm'):  
  19.     parsedurl = urlparse(url,'http:',0## parse path  
  20.     path = parsedurl[1] + parsedurl[2]  
  21.     ext = splitext(path)  
  22.     if ext[1] == '' : #no file,use default  
  23.        if path[-1] == '/':  
  24.           path += deffile  
  25.        else:  
  26.           path += '/' + deffile  
  27.     ldir = dirname(path) #local directory  
  28.     if sep != '/'# os-indep. path separator  
  29.        ldir = replace(ldir,'/',sep)  
  30.     if not isdir(ldir): # create archive dir if nec.  
  31.        if exists(ldir): unlink(ldir)  
  32.        makedirs(ldir)  
  33.     return path  
  34.   
  35.   def download(self): #download Web page  
  36.     try:  
  37.       retval = urlretrieve(self.url,self.file)  
  38.     except IOError:  
  39.       retval = ('*** ERROR: invalid URL "%s"' % \  
  40.           self.url,)  
  41.       return retval  
  42.     
  43.   def parseAndGetLinks(self): #parse HTML,save links  
  44.     self.parser = HTMLParser(AbstractFormatter(\  
  45.        DumbWriter(StringIO())))  
  46.     self.parser.feed(open(self.file).read())  
  47.     self.parse.close()  
  48.     return self.parser.anchorlist  
  49.   
  50.       
  51. class Crawler(object): #manage entire crawling process  
  52.   count = 0 #static downloaded page counter  
  53.     
  54.   def __init__(self,url):  
  55.     self.q = [url]     
  56.     self.seen = []   #have seen the url  
  57.     self.dom = urlparse(url)[1]  
  58.     
  59.   def getPage(self,url):  
  60.     r = Retriever(url)  
  61.     retval = r.download()  
  62.     if retval[0] == '*'# error situation,do not parse  
  63.       print retval,'... skipping parse'  
  64.       return   
  65.     Crawler.count += 1  
  66.     print '\n(',Crawler.count,')'  
  67.     print 'URL:',url  
  68.     print 'FILE:',retval[0]  
  69.     self.seen.append(url)  
  70.   
  71.     links = r.parseAndGetLinks() #get and process links  
  72.     for eachLink in links:  
  73.        if eachLink[:4] != 'http' and \  
  74.           find(eachLink,'://') == -1:  
  75.           eachLink = urljoin(url,eachLink)  
  76.        print '* ',eachLink,  
  77.          
  78.        if find(lower(eachLink),'mailto:') != -1:  
  79.           print '... discarded,mailto link'  
  80.           continue  
  81.          
  82.        if eachLink not in self.seen:  
  83.           if find(eachLink,self.dom) == -1:  
  84.              print '... discarded, not in domain'  
  85.           else:  
  86.              if eachLink not in self.q:  
  87.                   self.q.append(eachLink)  
  88.                   print '... new, added to Q'  
  89.              else:  
  90.                 print '... discarded, already in Q'  
  91.        else:  
  92.            print '... discarded, already processed'  
  93.   
  94.   def go(self): # process links in queue  
  95.       while self.q:  
  96.           url = self.q.pop()  
  97.           self.getPage(url)  
  98.   
  99.   
  100. def main():  
  101.   if len(argv) > 1:  
  102.       url = argv[1]  
  103.   else:  
  104.      try:  
  105.        url = raw_input('Enter starting URL:')  
  106.      except(KeyboardInterrupt,EOFError):  
  107.        url = ''  
  108.      if not url: return   
  109.      robot = Crawler(url)  
  110.      robot.go()  
  111.   
  112. if __name__ == '__main__':  
  113.    main()  
  114.   
  115.   
  116.