python3 [爬虫入门实战]爬虫之scrapy爬取中华人民共和国民政部

来源:互联网 发布:java ssh2 编辑:程序博客网 时间:2024/06/05 07:50

爬取缘由,主要是领导昨晚说要把整个网页上的数据都搞下来,我也没有去多想为什么,就尝试着把数据给爬下来了。昨天晚上回来没写多少, 跟今天早上写了写,也算熟悉了一下scrapy的post请求,跟fiddler的抓包过程吧。体验还是蛮好的。

1 先上一张要爬取的图片内容,虽然字段有点多:

这里写图片描述

所要标出来的字段都是要进行爬取的。

scrapy的项目创建可以按照之前的文章进行创建。

这里用了fiddler进行抓包,因为单纯的请求是被拒绝访问的,大家可以试着一下进行访问。http://xzqh.mca.gov.cn/fuzzySearch

这次的数据因为时间匆忙什么的,也没有及时进行数据的存储方式,只是单纯的打印在控制台上。

这里写图片描述

主要疑难点:

1 scrapy 进行post方面数据的请求,2 首次使用fiddler抓包进行项目的实践3 对于字段的爬取,主要是一边调试,一边进行跟进的,对table 这些标签把握度还不是很大。4 未对数据进行合理的整理,清洗,数据的存储,突然发现,爬虫又快被我落下了,可伶的安卓。想着自己能什么时候能鼓起勇气去找一份属于自己的爬虫工作

最后再贴上源代码,虽然整理的不是很好,但是里面的注释还是很详细的,主要贴spider里面的代码,我有空学习上传代码到github吧,虽然还是在学习的过程中。


#encoding=utf8import scrapyfrom govinfos.items import GovinfosItemclass GovInfos(scrapy.Spider):    # 启动爬虫的名称    name = 'govinfo'    # 爬虫的范围    allowed_domains=['xzqh.mca.gov.cn']    # 爬虫的第一个url    # start_urls = ['http://xzqh.mca.gov.cn/fuzzySearch']    # 这里是用post请求数据的    def start_requests(self):        url = 'http://xzqh.mca.gov.cn/fuzzySearch'        # FormRequest 是Scrapy发送POST请求的方法        yield scrapy.FormRequest(            url = url,            formdata = {"fs" : "%"},            callback = self.parse        )    # 爬取结果分析    def parse(self, response):        print('%'*30)        # print(response.body)        node_list = response.xpath("//*[@class='info_table']/tr")        for node in node_list:            # 根据jiansuo_table 进行判断是否包含,若不包含,则为城市的第一个名称            # 第一个城市的第一个名称            td1 = node.xpath("./td[@class='name_left']/a/text()").extract()            shen_address = node.xpath("./td/table[@class='jiansuo_table']/tr[@class='name_left']/td/a[@class='sheng_td']/text()").extract()            shi_address = node.xpath("./td/table[@class='jiansuo_table']/tr[@class='name_left']/td/a[@class='shi_td']/text()").extract()            qu_address = node.xpath("./td/table[@class='jiansuo_table']/tr[@class='name_left']/td[3]/a/text()").extract()            print('%' * 30)            print(td1)            print(shen_address)            print(shi_address)            print(qu_address)            # 驻地            zhudi_address =node.xpath("./td[@class='name_left']/text()").extract()            print(zhudi_address)            # renkou            person = node.xpath("./td[3]/text()").extract()            print(person)            #面积            area = node.xpath("./td[4]/text()").extract()            print(area)            # 行政区划            xingzhen = node.xpath("./td[5]/text()").extract()            print(xingzhen)            # 区号            quhao = node.xpath("./td[6]/text()").extract()            print(quhao)            # 邮编            # print(node)            youbian = node.xpath("./td[7]/text()").extract()            print(youbian)

完结,继续学习django的学习。

阅读全文
0 0
原创粉丝点击