利用beautiful soup获取豆瓣top250

来源:互联网 发布:生成艺术字软件 编辑:程序博客网 时间:2024/05/01 23:21

Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。下面代码实现了利用beautiful soup获取豆瓣电影top250。

# -*- coding: UTF-8 -*-import urllib2import refrom bs4 import BeautifulSoupclass Top250:    def __init__(self,page=0):        self.page=page        def ParseUrl(self):        Top250Url='http://movie.douban.com/top250?start=%s&filter=&format='%self.page        response=urllib2.urlopen(Top250Url)        html_doc=response.read()        soup=BeautifulSoup(html_doc)        for eachitem in soup.find_all(class_="item"):            print '='*120            title=eachitem.find(class_="title")            rating=eachitem.find(class_=re.compile("rating.*"))            quote=eachitem.find(class_="inq")            if title and rating:                print title.get_text()+": "+rating.get_text()            if quote:                print quote.get_text()            else:                print "没有评论"                                   if __name__=='__main__':      for i in range(0,10):        Inst=Top250(i*25)        Inst.ParseUrl()        



0 0
原创粉丝点击