RedHat下完美安装scrapy爬虫框架

来源:互联网 发布:shadowsock mac 知乎 编辑:程序博客网 时间:2024/05/17 22:31

Scrapy是一款非常成熟的爬虫框架,可以抓取网页数据并抽取结构化数据,目前已经有很多企业用于生产环境。

下面记录一下从安装Python到安装scrapy的过程,最后,通过执行命令进行抓取数据来验证我们所做的安装配置工作。

操作系统:RedHat   6.5
Python版本:Python-2.7.3
zope.interface版本:zope.interface-4.0.1.tar.gz
Twisted版本:Twisted-12.1.0.tar.bz2
libxml2版本:libxml2-2.7.4.tar.gz
w3lib版本:w3lib-1.2.tar.gz
Scrapy版本:Scrapy-0.24.4.tar.gz

setuptools版本:setuptools-0.6c11.tar.gz

pyOpenSSL版本:pyOpenSSL-0.11.tar.gz



安装配置


1、安装zlib

首先检查一下你的系统中是否已经安装zlib,该库是一个与数据压缩相关的工具包,scrapy框架依赖于该工具包。我使用的RHEL 5系统,查看是否安装:

[python] view plaincopy
  1. [root@localhost reptile]# rpm -qa zlib  
  2. zlib-1.2.3-3  
我的系统已经默认安装了,安装的话,可以跳过该步骤。如果没有安装的话,可以到http://www.zlib.net/上下载,并进行安装。假如下载的是zlib-1.2.5.tar.gz,安装命令如下所示:

[plain] view plaincopy
  1. [root@localhost reptile]# tar -xvzf zlib-1.2.5.tar.gz  
  2. [root@localhost zlib-1.2.5]# cd zlib-1.2.5  
  3. [root@localhost zlib-1.2.5]# make  
  4. [root@localhost zlib-1.2.5]# make install  

2、安装Python

我下载了Python的源代码,重新编译后,进行安装,过程如下所示:

[plain] view plaincopy
  1. [root@localhost reptile]# tar -zvxf Python-2.7.3.tgz  
  2. [root@localhost reptile]# cd Python-2.7.3  
  3. [root@localhost Python-2.7.3]# ./configure  
  4. [root@localhost Python-2.7.3]# make  
  5. [root@localhost Python-2.7.3]# make install  

默认情况下,Python程序被安装到/usr/local/lib/python2.7。

如果你的系统中没有安装过Python,此时通过命令行执行一下:

[plain] view plaincopy
  1. [root@localhost reptile]# python2.7  
  2. Python 2.7.3 (default, Dec  5 2011, 22:04:07)   
  3. [GCC 4.1.1 20070105 (Red Hat 4.1.1-52)] on linux2  
  4. Type "help", "copyright", "credits" or "license" for more information.  
  5. >>>  
表示最新安装的Python已经可以使用了。


3、安装setuptools

这里主要是安装一个用来管理Python模块的工具,如果已经安装就跳过该步骤。

下载地址如下所示:

http://pypi.python.org/packages/source/s/setuptools/setuptools-0.6c11.tar.gz
[plain] view plaincopy
  1. [root@localhost reptile]$ tar -xvzf setuptools-0.6c11.tar.gz 
  2. [root@localhost reptile]$ cd setuptools-0.6c11 
  3. [root@localhost setuptools-0.6c11]$ python2.7 setup.py install  

不过,在安装Python-2.7.3以后,可以看到Python的解压缩包里面有一个setup.py脚本,使用这个脚本可以安装Python一些相关的模块,执行命令:

[plain] view plaincopy
  1. [root@localhost Python-2.7.3]# python setup.py install  
安装执行后,相关Python模块被安装到目录/usr/local/lib/python2.7/site-packages下。


4、安装zope.interface

下载地址如下所示:

http://pypi.python.org/packages/source/z/zope.interface/zope.interface-4.0.1.tar.gz


安装过程如下所示:

[plain] view plaincopy
  1. [root@localhost reptile]$ tar -xvzf zope.interface-4.0.1.tar.gz 
  2. [root@localhost reptile]$ cd zope.interface-4.0.1  
  3. [root@localhost zope.interface-4.0.1]$ python2.7 setup.py build  
  4. [root@localhost zope.interface-4.0.1]$ python2.7 setup.py install  
安装完成后,可以在/usr/local/lib/python2.7/site-packages下面看到zope和zope.interface-4.0.1-py2.7.egg-info。


5、安装Twisted

下载地址如下所示:

http://twistedmatrix.com/Releases/Twisted/12.1/Twisted-12.1.0.tar.bz2


安装过程如下所示:

[plain] view plaincopy
  1. [root@localhost reptile]# bzip2 -d Twisted-12.1.0.tar.bz2  
  2. [root@localhost reptile]# tar -xvf Twisted-12.1.0.tar
  3. [root@localhost reptile]# cd Twisted-12.1.0  
  4. [root@localhost Twisted-12.1.0]# python2.7 setup.py install  
安装完成后,可以在/usr/local/lib/python2.7/site-packages下面看到twisted和Twisted-12.1.0-py2.7.egg-info。


6、安装w3lib

下载地址如下所示:

http://pypi.python.org/packages/source/w/w3lib/w3lib-1.2.tar.gz


安装过程如下所示:

[plain] view plaincopy
  1. [root@localhost reptile]# tar -xvzf w3lib-1.2.tar.gz  
  2. [root@localhost reptile]# cd w3lib-1.2  
  3. [root@localhost w3lib-1.2]# python2.7 setup.py install  
安装完成后,可以在/usr/local/lib/python2.7/site-packages下面看到w3lib和w3lib-1.2-py2.7.egg-info。


7、安装libxml2

下载地址如下所示:

http://download.chinaunix.net/download.php?id=28497&ResourceID=6095
http://download.chinaunix.net/down.php?id=28497&ResourceID=6095&site=1

或者,可以到网站http://xmlsoft.org上面找到相应版本的压缩包。

安装过程如下所示:

[plain] view plaincopy
  1. [root@localhost reptile]# tar -xvzf libxml2-2.7.4.tar.gz  
  2. [root@localhost reptile]# cd libxml2-2.7.4  
  3. [root@localhost libxml2-2.7.4]# ./configure  
  4. [root@localhost libxml2-2.7.4]# make  
  5. [root@localhost libxml2-2.7.4]# make install  


8、安装pyOpenSSL

该步骤可选,对应的安装包下载地址为:

http://launchpadlibrarian.net/58498441/pyOpenSSL-0.11.tar.gz

安装过程如下所示:

[plain] view plaincopy
  1. [root@localhost reptile]# tar -xvzf pyOpenSSL-0.11.tar.gz  
  2. [root@localhost reptile]# cd pyOpenSSL-0.11  
  3. [root@localhost pyOpenSSL-0.11]# python2.7 setup.py install


9、安装Scrapy

下载地址如下所示:

https://pypi.python.org/pypi/Scrapy


安装过程如下所示:

[plain] view plaincopy
  1. [root@localhost reptile]# tar -xvzf Scrapy-0.24.4.tar.gz 
  2. [root@localhost reptile]# cd Scrapy-0.24.4  
  3. [root@localhost Scrapy-0.24.4]# python2.7 setup.py install  

安装验证


经过上面的安装和配置过程,已经完成了Scrapy的安装,我们可以通过如下命令行来验证一下:

[plain] view plaincopy
  1. [root@localhost scrapy]# scrapy  
  2. Scrapy 0.14.0.2841 - no active project  
  3.   
  4. Usage:  
  5.   scrapy <command> [options] [args]  
  6.   
  7. Available commands:  
  8.   fetch         Fetch a URL using the Scrapy downloader  
  9.   runspider     Run a self-contained spider (without creating a project)  
  10.   settings      Get settings values  
  11.   shell         Interactive scraping console  
  12.   startproject  Create new project  
  13.   version       Print Scrapy version  
  14.   view          Open URL in browser, as seen by Scrapy  
  15.   
  16. Use "scrapy <command> -h" to see more info about a command  


自己编写了一个spider:carHome

执行命令:scrapy crawl carHome  出现以下结果表示运行正常



到此:RedHat下完美安装scrapy爬虫框架完毕

说明:请转载的同学表明转载地址,谢谢!




0 0