myeclipse+pydev4.0.1+scrapy 构建爬虫项目的流程
来源:互联网 发布:u盘数据丢失恢复 编辑:程序博客网 时间:2024/05/22 06:54
1,工具准备,安装python2.7,myeclipse,pydev4.0.1,scrapy模块安装参考http://blog.csdn.net/pipisorry/article/details/45190851这个链接,其它配置参考如下:
http://blog.csdn.net/pipisorry/article/details/45190851
http://blog.csdn.net/ioiol/article/details/46745993
操作上参照这,3个链接进行安装;另外python所需的标准库,第三方库,通过pip来安装。
举例来说:cmd里面输入如下命令
c:
cd \Python27\Scripts
dir
pip install rsa //rsa是一个加密扩展包模块
pip install Scrapy //安装scrapy,在安装的时候会自动安装下载所需要的,下面只是举例,具体可以同pip安装报错来看scrapy所对应的依赖是那个版本。
lxml 2.3
twisted 12.0.0
zope.interface 4.1.0
pyOpenSSL 0.13
但是实际上我并没有安装成功,所以需要自己对应各自版本自己下所需依赖。参照连接:http://www.tuicool.com/articles/JFzeqy
安装sarapy之前,需要安装pywin32,这个要对应本机安装的python的版本,通过cmd里面输入python,查看我的本地python版本是2.7,64位,所以需要安装
pywin32-221.win-amd64-py2.7.exe 这个才能对应起来。否则会各种问题。
下载地址:https://sourceforge.net/projects/pywin32/files/pywin32/
简言之就是通过pip安装scrapy之前,需要手动安装scrapy 的一些依赖:pywin32、Twisted、pyOpenSSL、lxml 和 zope.interface。
有些下载下来的文件是whl这种格式的,需要用 pip install 整个whl文件安装,先进入whl文件所在文件夹,最好是放在python27里面;还有就是关于
xxxxxx tar.gz怎么安装呢?还是跟上面一样,先放到python27文件里面,解压,通过cmd进入到setup.py文件夹,在输入
setup.py.install就行。
很多库可以在https://pypi.python.org/pypi/pip#downloads这个 网站上下。
2,创建scrapy项目
通过sarapy命令来创建一个项目,并拷贝相关的东西到eclipse工程目录下。
新建scrapy项目。选择一个文件夹下,按住Shift并右键【在此处打开命令窗口(w)】,在dos上运行scrapy startproject tutorial,创建一个 tutorial工程,参照http://blog.csdn.net/otengyue/article/details/48065841连接。
3,安装mysql,python-mysql,爬东西的话多少要用到数据库存储,我这里用mysql,
4,开始编写爬虫技术之旅
总算能搞一个完整的开发环境了。希望后续看到这文章的能借鉴有用,我也是参照很多文章搞定的,为方便后续配置使用,写下此文章。
- myeclipse+pydev4.0.1+scrapy 构建爬虫项目的流程
- scrapy创建爬虫项目
- Scrapy创建爬虫项目
- 爬虫学习之Scrapy构建
- 使用scrapy-redis构建简单的分布式爬虫
- 【Scrapy-01】安装、创建项目、创建爬虫、简单爬取百度title的例子以及工作流程简介
- scrapy的使用,修正《Python下用Scrapy和MongoDB构建爬虫系统》
- Scrapy创建爬虫项目步骤
- Scrapy爬虫的尝试
- Scrapy爬虫笔记【2-基本流程】
- 同时运行多个scrapy爬虫的几种方法(自定义scrapy项目命令)
- 同时运行多个scrapy爬虫的几种方法(自定义scrapy项目命令)
- Python爬虫 scrapy框架 原理,scrapy开发流程
- Scrapy爬虫(九):scrapy的调试技巧
- Python网络爬虫4 ---- Linux下编写最简单的scrapy网络爬虫项目
- Scrapy:Python的爬虫框架
- 基于scrapy的小爬虫
- 使用scrapy编写的爬虫
- webpack入门(三)
- JAVA--长整数与16进制字符串互相转换
- [bzoj4161]Shlw loves matrixI
- 致自己
- Android AndroidManifest.xml相关flag详细说明
- myeclipse+pydev4.0.1+scrapy 构建爬虫项目的流程
- 数据结构--链表
- 506. Relative Ranks的C++解法
- astgo-官方提供的使用技巧大全
- Codeforces Round #247 (Div. 2)
- ZOJ 3949 Edge to the Root(树形DP)
- Jquery加密密码到cookie
- Maven下解决中文乱码
- webpack入门(四)