Scrapy爬虫Demo
来源:互联网 发布:雨荷数据恢复视频教程 编辑:程序博客网 时间:2024/06/05 04:50
#coding=utf-8import scrapyimport timeimport refrom qqcrawler.items import QqcrawlerItemclass QzoneSpider(scrapy.Spider): name = "qzone" # allowed_domains = ["qzone.qq.com/"] start_urls = [ # "http://www.ncst.edu.cn/" "http://qzone.qq.com/" # ,"http://www.qq.com/" ] def parse(self, response): try: qq_item = QqcrawlerItem() #爬取的数据 qq_item['c_time'] = time.time() qq_item['url'] = response.url if response.xpath('/html/head/title'): qq_item['title'] = response.xpath('/html/head/title').extract() else: qq_item['title']=None yield qq_item if response.xpath('//@href'): for i in response.xpath('//@href').extract(): if re.match('^http.*qzone\.qq.*',i): print i,'================' yield scrapy.Request(i, callback=self.parse) #继续向爬虫中添加url except: print ''
0 0
- Scrapy爬虫Demo
- 网络蜘蛛爬虫 Scrapy - 简介&Demo
- Scrapy爬虫入门教程二 官方提供Demo
- scrapy爬虫++mysql数据库+tomcat服务器+android客户端项目demo
- scrapy爬虫
- Scrapy 爬虫
- scrapy爬虫
- 爬虫-scrapy
- 爬虫demo
- Scrapy爬虫(二):爬虫简介
- Scrapy-CrawlSpider爬虫组件
- Scrapy下网络爬虫
- Scrapy-CrawlSpider爬虫组件
- Scrapy-CrawlSpider爬虫组件
- Scrapy爬虫入门
- scrapy 入门教程 爬虫 Spider
- Python爬虫Scrapy
- scrapy爬虫-------命令解析
- 导入Maven项目后,Eclipse提示“Missing artifact ”类的错误
- 省市区三级联动
- 【深入理解java集合系列】List,Set,Map用法以及区别
- svn学习
- 测试图片
- Scrapy爬虫Demo
- Eclipse中根据数据库自动生成dao、mapper、model
- div边框线上添加文字
- poj3070 Fibonacci(矩阵快速幂)
- 数据结构实验图论一:基于邻接矩阵的广度优先搜索遍历
- JavaScript——表单验证
- AsnyncTask——AsnyncTask内部机制
- mybaties 一对多和多对一
- virtualbox 使用物理硬盘