利用beautiful soup获取豆瓣top250
来源:互联网 发布:生成艺术字软件 编辑:程序博客网 时间:2024/05/01 23:21
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。下面代码实现了利用beautiful soup获取豆瓣电影top250。
# -*- coding: UTF-8 -*-import urllib2import refrom bs4 import BeautifulSoupclass Top250: def __init__(self,page=0): self.page=page def ParseUrl(self): Top250Url='http://movie.douban.com/top250?start=%s&filter=&format='%self.page response=urllib2.urlopen(Top250Url) html_doc=response.read() soup=BeautifulSoup(html_doc) for eachitem in soup.find_all(class_="item"): print '='*120 title=eachitem.find(class_="title") rating=eachitem.find(class_=re.compile("rating.*")) quote=eachitem.find(class_="inq") if title and rating: print title.get_text()+": "+rating.get_text() if quote: print quote.get_text() else: print "没有评论" if __name__=='__main__': for i in range(0,10): Inst=Top250(i*25) Inst.ParseUrl()
0 0
- 利用beautiful soup获取豆瓣top250
- 爬取豆瓣Top250图书【Beautiful】
- 利用scrapy爬取豆瓣top250
- 利用python爬取豆瓣音乐TOP250
- Python爬虫获取豆瓣电影TOP250
- Mathematica 获取豆瓣图书top250,正则表达式
- Python利用Beautiful Soup抓取新闻标题
- python3利用beautiful soup获取网页文本及src链接和http链接
- Beautiful Soup
- Beautiful Soup
- Beautiful Soup
- Beautiful Soup
- Beautiful Soup
- 利用 Python 爬取豆瓣电影排行榜 Top250 的数据
- [Python/爬虫]利用xpath爬取豆瓣电影top250
- 牛刀小试:利用Python分析豆瓣电影Top250(一)
- 利用urllib和beautiful soup下载网页图片
- 4、利用Request和Beautiful Soup抓取指定URL内容
- Ubuntu查看ssh服务是否开启
- node.js xmpp
- tomcat和IIS整合 的用途
- Vim简明教程【CoolShell】
- verilog小结
- 利用beautiful soup获取豆瓣top250
- 一个例子让你了解Java反射机制
- RGB颜色表
- 首篇博文
- 内存溢出
- 项目中的部分问题
- 做项目被log4j的输出格式化参数搞烦了,索性把API的相关部分大致翻译一下,原文参见 ----转载
- 项目经理的技巧
- 冒泡排序