Spider based on scrapy

来源:互联网 发布:京东java面试 编辑:程序博客网 时间:2024/05/01 03:45

spider icon

Spider based on scrapy

Overview

Spider based on scrapy is create for crawl useful information.

Structure

  1. Needs

  2. Usage

  3. Note

Needs

  • python
  • scrapy
  • pymongo
  • MongoDB

Usage

1.开启mongodb 服务器 sudo or not.$sudo mongod$password: OR$mongod

JOBDIR Jobs: pausing and resuming crawls.

2.在含有.cfg文件的目录下,输入以下命令, $scrapy crawl doubanSpider -s JOBDIR=crawls/doubanisbnSpider -s MONGODB_DB=douban -s MONGODB_COLLECTION=books3.开启mongo客户端$mongo      >show dbs>use amazon>show collections    # collections相当于mysql里面的tables>db.books.find()     # 查看books中的所有书籍信息4 关闭mongo客户端>use admin           # 切换数据库>db.shutdownServer() # 关闭服务器>exit                # 退出客户端

Note

  • ‘.idea’文件夹是我用Pycharm创建工程时,自动生成的工程配置信息。
  • ‘.UserAgentString.json’文件里面包含有9502个PC浏览器代理信息和512个Mobile浏览器代理信息。
  • 默认启用CrawleraProxy服务, 需要自己设置 CRAWLERA_USER 的值。(具体如何设置CRAWLERA_USER,请参考官网)
  • GoogleCache和RandomUserAgent, 参考gnemoug
  • RandomProxy 参考aivarsk.
  • 我对RandomUserAgent和RandomProxy做了相应的修改。如果,启用RandomProxy, 请重新设置randomproxy.py中的代理地址url, 并重新分析实现updateIPs函数。
0 0
原创粉丝点击