python_feedparser_module

来源:互联网 发布:psv优化 编辑:程序博客网 时间:2024/05/15 16:19

feedparser模块,
feedparser 号称是一个 universal feed parser,使用它我们可轻松地实现从任何 RSS 或 Atom 订阅源得到标题、链接和文章的条目了,这个号称并不是说的话,是因为这个模块真的很强大,解压打开后可以直接使用:
python setup.py install
安装使用,也可以使用:pip install feedparser来安装模块
关于RSS是什么,这个其实我也不清楚,查了资料以后才明白,RSS是RDF Site Summary 的缩写(RDF是Resource Description Framework的缩写 ),是指将网站摘要用xml语言描述。
如果跟一样都不懂RSS是什么的同学可以读一下这里,个人感觉总结的还是很详细的。
好了,不闲聊这些了,因为想知道是什么的话网上输入关键词,一查一大堆的资料就来了,下面看一下我的实践,使用feedparser模块来进行解析过滤页面,返回需要的信息:
下面是具体的实现:

#!usr/bin/env python  #encoding:utf-8  import feedparser  def test(url='http://blog.csdn.net/together_cz/article'):      '''''     学习使用feedparser     输入:url     输出:页面信息     '''      one_page_dict = feedparser.parse(url)      '''''     解析得到的是一个字典     '''      print one_page_dict      '''''     输出字典中的键值有哪些,一共有10中如下:     ['feed', 'status', 'version', 'encoding', 'bozo', 'headers', 'href', 'namespaces', 'entries', 'bozo_exception']     '''      print one_page_dict.keys()      print '----------------------------------------------------------'      print '访问页面链接href为:'      print one_page_dict['href']      print '页面返回headers信息为:'      print one_page_dict['headers']      print '页面version信息为:'      print one_page_dict['version']      print '页面状态码为:'      print one_page_dict['status']      print '页面语言类型为:'      print one_page_dict['feed']['html']['lang']      print '页面meta信息为:'      print one_page_dict['feed']['meta']['content']      print one_page_dict['feed']['meta']['name']  if __name__ == '__main__':      url_list=['http://www.baidu.com','http://www.vmall.com','http://www.taobao.com']      for one_url in url_list:          print '当前url为--->', one_url          try:              test(one_url)          except:              print '***************************************************************'          print '----------------------------------------------------------'
原创粉丝点击