python scrapy 爬虫
来源:互联网 发布:淘宝网页浏览需要登录 编辑:程序博客网 时间:2024/05/17 11:03
今天没事浅谈一下爬虫,有一次项目中用到数据,就开始用python爬虫,爬到的数据直接插到数据库,项目可以直接从数据库查找数据,审核后,可以在前台展示,爬取的速度比较慢,后来又用java写了一个爬虫代码,速度也是很慢,最后决定用scrapy这个爬虫框架爬虫,不错,速度确实比之前速度快了一些。
在用scrapy爬取数据前,需要安装python下redis,mongdb相关的包,安装就绪后,window环境下进入python的安装目录下,开始建立一个爬虫项目,命令直接是
scrapy startproject crawl(爬虫的项目名字,可以随便取),可以进入到当前目录下看,系统会自动生成一些文件,下面就谈一下这些文件的具体作用。其中settings.py这个文件是定义一些和数据库相关的变量,比如爬虫用的redis的IP和端口号,mongdb的IP和端口号等。items.py这个文件是定义一些存放临时的爬取数据的数据域,用起来很方便。pipelines.py这个文件是操作数据用的,比如把爬虫爬取的数据插入到数据库的指定表中等。然后在当前目录下的spiders下新建一个爬取数据的文件,这个文件系统不会自动生成,需要自己新建。提取数据可以用正则表达式,xpath等。完成后可以在当前目录下scrapy crawl 爬虫项目名字,开始爬取。用这个框架爬取数据速度比之前快点,关键是很方便,菜鸟刚开始写博客,有什么建议,欢迎大家指正。最后如果想更快的爬取数据,可以看分布式爬虫的知识。
0 0
- Python爬虫Scrapy
- python爬虫scrapy
- Python 爬虫框架 scrapy
- python scrapy爬虫
- Python 启动 Scrapy爬虫
- python爬虫+scrapy安装
- python scrapy 爬虫
- Python+Scrapy 爬虫
- Python+Scrapy 爬虫配置
- python+scrapy+selenium爬虫
- Python爬虫Scrapy实践
- python爬虫scrapy安装
- Python爬虫:scrapy安装
- Python Scrapy爬虫入门
- [python]爬虫库scrapy
- Python爬虫框架--Scrapy
- Python Scrapy爬虫框架
- python爬虫 -- scrapy框架
- centos安装phpmyadmin及配置
- Leetcode #2 Add Two Numbers 解题小结
- bzoj2648 SJY摆石子 kd-tree
- c++ const 关键字
- Android APK反编译就这么简单 详解(附图)
- python scrapy 爬虫
- iOS 设计模式 - 责任链模式
- BP神经网络的反向求导
- 1002. A+B for Polynomials
- hdoj-1058(优先队列)---priority_queue====丑数
- cp命令出现omitting directory的解决方法
- java final static public private protected关键字
- 第一章:Android开发基础
- Android如何防止apk程序被反编译