在ubuntu上创建scrapy爬虫
来源:互联网 发布:七月十五插件数据下载 编辑:程序博客网 时间:2024/06/07 12:11
下载scrapy
在命令行下输入: sudo apt-get install python-scrapy
或者进入http://scrapy.org下载安装
新建项目
命令行下进入项目目录,输入scrapy startproject start
新建一个名为start的项目
项目结构如下
start/ scrapy.cfg start/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py
各文件的作用如下:
- scrapy.cfg: 项目配置文件
- items.py: 项目items文件
- pipelines.py: 项目管道文件
- settings.py: 项目配置文件
- spiders: 放置spider的目录
开始简单爬虫
在spiders目录下新建文件qiushi.py
代码如下:
from scrapy.spider import BaseSpiderclass QiushiSpider(BaseSpider): name = "qiushi" allowed_domains = ["qiushibaike.com","www.qiushibaike.com"] start_urls = ["http://www.qiushibaike.com/"] def parse(self,response): filename = response.url.split("/")[-2] open(filename,'wb').write(response.body)返回项目主目录,执行scrapy crawl qiushi
执行完毕后,项目内会出现爬取网页文件
0 0
- 在ubuntu上创建scrapy爬虫
- 在服务器上(ubuntu)设置scrapy爬虫程序定是执行
- scrapy创建爬虫项目
- Scrapy创建爬虫项目
- 在服务器上搭建scrapy分布式爬虫环境的过程
- 如何在Docker上封装scrapy-redis爬虫?
- Scrapy创建爬虫项目步骤
- scrapy爬虫之sublime Text 2在ubuntu下的安装
- 大数据爬虫基础(三)Scrapy在ubuntu 16.04下的安装
- Lubuntu14.04(Ubuntu)安装爬虫框架Scrapy
- ubuntu下安装scrapy爬虫框架
- Ubuntu 12.04 安装Scrapy爬虫框架
- Scrapy框架利用CrawlSpider创建自动爬虫
- Scrapy框架利用CrawlSpider创建自动爬虫
- linux下在服务器上配置scrapy框架的python爬虫,使用mysql数据库保存
- CentOS上搭建Scrapy爬虫框架
- Python网络爬虫3 ---- ubuntu下安装爬虫框架scrapy
- 在ubuntu上查创建hadoop用户
- tomcat报空指针
- ASP.NET MVC3默认提供了11种ActionResult的实现(简单用法)
- SpringMVC入门学习(二)应用注解方式+注解优化
- log4j日志配置——Console+Database+E-Mail
- LEETCODE: Remove Duplicates from Sorted List
- 在ubuntu上创建scrapy爬虫
- TFT LCD
- [C++]_[初级]_[删除字符串中的前后空格]
- ie8下bootstrap3的Glyphicons图标不显示问题
- CocoaPods安装和使用
- 配置服务器过程中错误Cannot load php5apache2.dll into server的解决方法
- hadoop系列学习之WordCount运行详解
- Robot Framework中使用DatabaseLibrary来连接数据库(MySQL)
- u盘grub2安装centos_7.x_windows_8.1_pe