scrapy 爬取腾讯招聘网
来源:互联网 发布:韩火火do not tag 淘宝 编辑:程序博客网 时间:2024/05/16 18:59
********************主要的爬取类*****************# -*- coding: utf-8 -*-import scrapyfrom scrapy.spiders import Rule,CrawlSpiderfrom Tencent.items import TencentItemfrom scrapy.linkextractors import LinkExtractorclass TenxunSpider(CrawlSpider): name = "tenxun" #allowed_domains = ["Tencent.com"] start_urls = ['http://hr.tencent.com/position.php'] rules={ Rule(LinkExtractor(allow='position\.php',restrict_xpaths="//div[@class='pagenav']"),follow=True), Rule(LinkExtractor(allow="position_detail\.php",restrict_xpaths="//td[@class='l square']"),follow=False,callback="paser_item") } def paser_item(self,response): item=TencentItem() print response.url item['title']=response.xpath("//tr[@class='h']/td/text()").extract() item['workLoction']=response.xpath("//tr[@class='c bottomline']/td[1]/text()")[0].extract() item['person_number']=response.xpath("//tr[@class='c bottomline']/td[3]/text()").re('(\d+)')[0] item["duty"]=response.xpath("//tr[@class='c bottomline']/td[2]/text()")[0].extract() item['url']=response.url item["Job_requirement"]=response.xpath("//tr[@class='c']")[1].xpath('//li/text()').extract() item["Job_duty"]=response.xpath("//tr[@class='c']")[0].xpath('//li/text()').extract() yield item*******************items.py****************from scrapy import Item,Fieldclass TencentItem(Item): # define the fields for your item here like: # name = scrapy.Field() workLoction=Field() #工作地点 person_number=Field() #招聘人数 duty=Field() #职业类别 title=Field() #标题 Job_requirement=Field()#工作要求 Job_duty=Field() #工作职责 url=Field() #网页链接*****************pipelines文件*******************import json,codecsclass TencentPipeline(object): def __init__(self): self.file=codecs.open('duty_file.json','w',encoding='utf-8') def process_item(self, item, spider): line=json.dumps(dict(item),ensure_ascii=False)+'\n' self.file.write(line) return item def close_file(self,spider): self.file.close()**************setting文件要添加的内容*********ITEM_PIPELINES={ "Tencent.pipelines.TencentPipeline":300,}之后就是运行了。想要了解代码的意思就看我上篇用scrapy写的爬取校花的升级版的文章
0 0
- scrapy 爬取腾讯招聘网
- Scrapy框架爬取腾讯招聘所有职位
- 使用Scrapy框架爬取腾讯招聘信息
- 爬取腾讯招聘scrapy框架实现,并以(表格,json)形式存储到本地
- scrapy爬虫实战(二)-------------爬取IT招聘信息
- 基于scrapy框架的关于58同城招聘网站信息的爬取
- 利用Scrapy爬取1905电影网
- scrapy框架爬取51job网
- scrapy抓取腾讯招聘数据并入库mongodb(浅)
- scrapy实战-爬取
- Scrapy爬取图片
- scrapy爬取图片
- Scrapy爬取1
- scrapy 爬取漫画
- scrapy爬取图片
- scrapy爬取链接
- scrapy框架学习-爬取腾讯社招信息-tencent.py
- scrapy框架学习-爬取腾讯社招信息-item字段和管道文件
- 1105. Spiral Matrix (25)
- LinkedList源码分析
- 94. Binary Tree Inorder Traversal
- 章三例题4——UVA 340 Master -Mind Hints
- Activity 启动模式 分析
- scrapy 爬取腾讯招聘网
- Largest palindrome product——查找最大回文数
- 总结下自己一路走过的java http客户端
- 设计模式(一)-工厂模式
- cf371C
- Linux-硬件检查常用代码
- 统计学习方法 第五章
- 技术晋升的评定与博弈
- Spring注解事务@Transactional