基于Scrapyd的爬虫部署
来源:互联网 发布:男生冬季服装搭配知乎 编辑:程序博客网 时间:2024/05/20 05:07
系统为Ubuntu16.04TLS。
1. Installtion
通过使用scrapy-client中的scrapy-deploy将scrapy project部署到scrapyd server。
# 安装scrapydpip install scrapyd# 安装scrapy-client# for python2.xpip install git+https://github.com/scrapy/scrapyd-client# for python3.6pip install scrapy-client
2. Usage
a. 配置scrapy.cfg
[settings]default = njupt.settings[deploy:server-njupt]url = http://localhost:6800/project = njupt
b. 配置scrapyd
配置文件可参考scrapy文档进行配置。
其加载顺序为: /etc/scrapyd/scrapyd.conf
/etc/scrapyd/conf.d/*
scrapyd.conf
~/.scrapyd.conf
example:
[scrapyd]eggs_dir = eggslogs_dir = logsitems_dir =jobs_to_keep = 5dbs_dir = dbsmax_proc = 0max_proc_per_cpu = 4finished_to_keep = 100poll_interval = 5.0bind_address = 127.0.0.1http_port = 6800debug = offrunner = scrapyd.runnerapplication = scrapyd.app.applicationlauncher = scrapyd.launcher.Launcherwebroot = scrapyd.website.Root[services]schedule.json = scrapyd.webservice.Schedulecancel.json = scrapyd.webservice.Canceladdversion.json = scrapyd.webservice.AddVersionlistprojects.json = scrapyd.webservice.ListProjectslistversions.json = scrapyd.webservice.ListVersionslistspiders.json = scrapyd.webservice.ListSpidersdelproject.json = scrapyd.webservice.DeleteProjectdelversion.json = scrapyd.webservice.DeleteVersionlistjobs.json = scrapyd.webservice.ListJobsdaemonstatus.json = scrapyd.webservice.DaemonStatus
c. 启动scrapyd
scrapyd
d. 发布
# 进入scrapy project根目录scrapyd-deploy server-njupt -p njupt# 指定版本号,默认为当前时间戳scrapyd-deploy server-njupt -p njupt --version 1.0
scrapy-deploy
的命令请看其帮助
e. 执行爬虫任务
curl http://localhost:6800/schedule.json -d project=njupt -d spider=njupt
可通过scrapyd-client spiders -p njupt 查看project=njupt下的spider。
3. Security
可以在scrapyd前面加一层反向代理来实现用户认证。以nginx
为例, 配置nginx
server { listen 6801; location / { proxy_pass http://127.0.0.1:6800/; auth_basic "Restricted"; auth_basic_user_file /etc/nginx/htpasswd/user.htpasswd; }}
在/etc/nginx/htpasswd/user.htpasswd
里设置用户名和密码,假设都为test。修改scrapy.cfg如下:
[settings]default = njupt.settings[deploy:server-njupt]url = http://localhost:6800/project = njuptusername = testpassword = test
4. API
参考官方文档API。
阅读全文
0 0
- 基于Scrapyd的爬虫部署
- scrapyd部署爬虫遇到的问题
- Scrapyd部署爬虫
- Scrapyd部署爬虫项目
- 使用Scrapyd部署爬虫
- Scrapyd部署爬虫
- scrapyd:基于scrapy的爬虫发布管理工具
- 基于scrapyd爬虫发布总结
- ubuntu下scrapyd部署爬虫项目
- scrapyd部署
- 利用scrapyd管理scrapy的多个爬虫
- ubantu下部署scrapyd
- scrapyd部署总结
- scrapyd项目部署
- python scrapy部署scrapyd
- 用python3写的scrapy代码,如何部署到scrapyd
- centos系统下通过scrapyd部署python的scrapy
- scrapyd的安装
- 最全最好用的Android Studio插件整理
- Kafka 笔记
- 1018. 锤子剪刀布 (20) PAT乙级真题
- Android实现网络多线程断点续传下载
- Spring简介
- 基于Scrapyd的爬虫部署
- php代码,做跳转用的好久没写了,记录一个
- RK3288 编译环境搭建
- hdu 4677 并查集+分块算法 好题 (2013多校联合)
- 银行排队叫号系统
- Redis的监控功能
- Ubuntu16.04LTS 下ros(kinetic)的arduino应用(三)
- Dubbo动态改变端口配置
- 编程思想之多线程与多进程(3)——Java中的多线程