python scrapy 爬虫

来源：互联网发布：淘宝网页浏览需要登录编辑：程序博客网时间：2024/05/17 11:03

今天没事浅谈一下爬虫，有一次项目中用到数据，就开始用python爬虫，爬到的数据直接插到数据库，项目可以直接从数据库查找数据，审核后，可以在前台展示，爬取的速度比较慢，后来又用java写了一个爬虫代码，速度也是很慢，最后决定用scrapy这个爬虫框架爬虫，不错，速度确实比之前速度快了一些。

在用scrapy爬取数据前，需要安装python下redis，mongdb相关的包，安装就绪后，window环境下进入python的安装目录下，开始建立一个爬虫项目，命令直接是

scrapy startproject crawl(爬虫的项目名字，可以随便取)，可以进入到当前目录下看，系统会自动生成一些文件，下面就谈一下这些文件的具体作用。其中settings.py这个文件是定义一些和数据库相关的变量，比如爬虫用的redis的IP和端口号，mongdb的IP和端口号等。items.py这个文件是定义一些存放临时的爬取数据的数据域，用起来很方便。pipelines.py这个文件是操作数据用的，比如把爬虫爬取的数据插入到数据库的指定表中等。然后在当前目录下的spiders下新建一个爬取数据的文件，这个文件系统不会自动生成，需要自己新建。提取数据可以用正则表达式，xpath等。完成后可以在当前目录下scrapy crawl 爬虫项目名字，开始爬取。用这个框架爬取数据速度比之前快点，关键是很方便，菜鸟刚开始写博客，有什么建议，欢迎大家指正。最后如果想更快的爬取数据，可以看分布式爬虫的知识。

0 0