捉取dmoztools.net的标题,链接和描述
来源:互联网 发布:记分牌算法 编辑:程序博客网 时间:2024/06/07 19:15
原http://www.dmoz.org已经重定向到dmoztools.net,html也有所改变,所以不能照搬参考文档。
Scrapy的安装和使用请参考http://docs.pythontab.com/scrapy/scrapy0.24/intro/tutorial.html。
源码:
#!/usr/bin/env python# -*- coding: utf-8 -*-from scrapy.spider import Spiderfrom scrapy.selector import Selectorfrom tutorial.items import DmozItemclass DmozSpider(Spider): name = "dmoz" allowed_domains = ["dmoztools.net"] start_urls = [ "http://dmoztools.net/Computers/Programming/Languages/Python/Books/", "http://dmoztools.net/Computers/Programming/Languages/Python/Resources/" ] #http://dmoztools.net/Computers/Programming/Languages/Python/Resources/ #http://dmoztools.net/Computers/Programming/Languages/Python/Books/ def parse(self,response): """ demo 1 #filename = response.url.split("/")[-2] #open(filename,'wb').write(response.body) """ """ demo 2 sel = Selector(response) sites = sel.xpath('//div[@class="title-and-desc"]') for site in sites: #title = site.xpath('a/div[@class="site-title"]/text()').extract() #link = site.xpath('a/@href').extract() desc = site.xpath('div[@class="site-descr "]/text()').extract() #print title #print link print desc """ sel = Selector(response) sites = sel.xpath('//div[@class="title-and-desc"]') items = [] for site in sites: item = DmozItem() item['title'] = site.xpath('a/div[@class="site-title"]/text()').extract() item['link'] = site.xpath('a/@href').extract() item['desc'] = site.xpath('div[@class="site-descr "]/text()').extract() items.append(item) return items
阅读全文
0 0
- 捉取dmoztools.net的标题,链接和描述
- 取标题+描述
- 标题和描述的书写
- 用正则表达式爬取链接和标题
- 描述Linux下软链接和硬链接的区别
- 关键词的标题和网页描述技巧写法
- dedecms 5.7列表页重复标题和描述的解决方案
- dedecms 5.7列表页重复标题和描述的解决方案
- 设置网站集的标题,描述和Logo
- PYTHON 获取csdn的博客文章标题和描述
- 有利于排名的网页标题和描述创作
- 有利于排名的网页标题和描述创作
- 有利于排名的网页标题和描述创作
- 关于微信自定义分享的链接、标题、描述、图片都未生效问题详解
- 根据描述性弹性域的标题查找描述性弹性域表和列
- 根据描述性弹性域的标题查找描述性弹性域表和列 .
- 描述编译和链接过程
- 描述编译和链接过程
- 轻量级mq实现之 disruptor 原理
- 对方法的验证
- 2017 Multi-University Training Contest
- 汇编语言(1)——从机器到汇编
- 输出暂停和清屏函数
- 捉取dmoztools.net的标题,链接和描述
- 【CodeForces】837B
- os
- 【HPUvjudge】矩阵乘法
- [HackerRank 101 Hack 51] Testing the Game
- BeanPropertyRowMapper注意与访问权限
- Android数据文件存储路径
- C++Primer Plus(第六版) 第十三章 第四题
- java 快速排序