架构师之路：Python分布式爬虫Scrapy打造搜索引擎

来源：互联网发布：js 判断子字符串编辑：程序博客网时间：2024/05/17 20:46

随笔背景：在很多时候，很多入门不久的朋友都会问我：我是从其他语言转到程序开发的，有没有一些基础性的资料给我们学习学习呢，你的框架感觉一下太大了，希望有个循序渐进的教程或者视频来学习就好了。对于学习有困难不知道如何提升自己可以加扣：1225462853进行交流得到帮助，获取学习资料.

CK21144-Python分布式爬虫必学框架Scrapy打造搜索引擎

下载地址：http://pan.baidu.com/s/1jI05TPW

Scrapy项目基本流程

默认的Scrapy项目结构

使用全局命令startproject创建项目，在project_name文件夹下创建一个名为project_name的Scrapy项目。

scrapy startproject myprojectimport scrapyclass DmozItem(scrapy.Item):    title = scrapy.Field()    link = scrapy.Field()    desc = scrapy.Field()

$ scrapy genspider -lAvailable templates:  basic  crawl  csvfeed  xmlfeed$ scrapy genspider -d basicimport scrapyclass $classname(scrapy.Spider):    name = "$name"    allowed_domains = ["$domain"]    start_urls = (        'http://www.$domain/',        )    def parse(self, response):        pass$ scrapy genspider -t basic example example.comCreated spider 'example' using template 'basic' in module:  mybot.spiders.example

import scrapyfrom tutorial.items import DmozItemclass DmozSpider(scrapy.Spider):    name = "dmoz"    allowed_domains = ["dmoz.org"]    start_urls = [        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"    ]    def parse(self, response):        for sel in response.xpath('//ul/li'):            item = DmozItem()            item['title'] = sel.xpath('a/text()').extract()            item['link'] = sel.xpath('a/@href').extract()            item['desc'] = sel.xpath('text()').extract()            yield item
单机爬虫（Scrapy）到分布式爬虫（Scrapy-Redis）的完美实战
不怕你和别的爬虫课程比较，随便去看，你会明白，慕课网的情怀从来不是靠嘴说的，是靠高质量内容体现的
说真的，你再也没有理由学不会爬虫了 从0开始讲解  爬虫基本原理
最流行爬虫框架 Scrapy 从单机爬虫到 分布式爬虫 爬取知名网站
真实数据 打造自己的 搜索引擎
从0讲解爬虫基本原理，对爬虫中所需要用到的知识点进行梳理，从搭建开发环境、设计数据库开始，通过爬取三个知名网站的真实数据，带你由浅入深的掌握Scrapy原理、各模块使用、组件开发，Scrapy的进阶开发以及反爬虫的策略
彻底掌握Scrapy之后，带你基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站

阅读全文

1 0