Spider based on scrapy
来源:互联网 发布:京东java面试 编辑:程序博客网 时间:2024/05/01 03:45
Spider based on scrapy
Overview
Spider based on scrapy is create for crawl useful information.
Structure
Needs
Usage
Note
Needs
- python
- scrapy
- pymongo
- MongoDB
Usage
1.开启mongodb 服务器 sudo or not.$sudo mongod$password: OR$mongod
JOBDIR Jobs: pausing and resuming crawls.
2.在含有.cfg文件的目录下,输入以下命令, $scrapy crawl doubanSpider -s JOBDIR=crawls/doubanisbnSpider -s MONGODB_DB=douban -s MONGODB_COLLECTION=books3.开启mongo客户端$mongo >show dbs>use amazon>show collections # collections相当于mysql里面的tables>db.books.find() # 查看books中的所有书籍信息4 关闭mongo客户端>use admin # 切换数据库>db.shutdownServer() # 关闭服务器>exit # 退出客户端
Note
- ‘.idea’文件夹是我用Pycharm创建工程时,自动生成的工程配置信息。
- ‘.UserAgentString.json’文件里面包含有9502个PC浏览器代理信息和512个Mobile浏览器代理信息。
- 默认启用CrawleraProxy服务, 需要自己设置 CRAWLERA_USER 的值。(具体如何设置CRAWLERA_USER,请参考官网)
- GoogleCache和RandomUserAgent, 参考gnemoug
- RandomProxy 参考aivarsk.
- 我对RandomUserAgent和RandomProxy做了相应的修改。如果,启用RandomProxy, 请重新设置randomproxy.py中的代理地址url, 并重新分析实现updateIPs函数。
0 0
- Spider based on scrapy
- Scrapy spider代码片段
- Scrapy Spider前奏
- scrapy 入门教程 爬虫 Spider
- scrapy爬虫之Spider
- scrapy中spider
- scrapy的spider
- scrapy 之 Spider类
- 爬虫Scrapy-05Spider
- Spider之Scrapy安装介绍
- Scrapy Spider Project Technical Notes
- Scrapy Redis源码 spider分析
- 【spider】之 Scrapy初次体验
- spider for doubantop250 -- scrapy框架
- Scrapy 的 Spider 的编写
- Scrapy学习笔记(2)---Spider
- spider小白-初探Scrapy
- 八.Scrapy 学习下Spider中间件Spider Middlewares
- java断言
- Action Bar
- sensor__HAl分析(实现)
- Web_reg_find()函数的使用
- iOS开发 粗解UIDynamicAnimator
- Spider based on scrapy
- 常用软件序列号
- 0020回文的一种实现方法
- git tag的用法
- linux c mysql
- HDU 1114 Piggy-Bank(完全背包问题)
- 错误笔记
- 总结iOS 多线程学习过程六
- 笔记六(脉冲运动)