python3 爬虫环境准备 (一)
来源:互联网 发布:笔记本风扇转速软件 编辑:程序博客网 时间:2024/06/01 08:06
虽然对于windows下可视化安装操作都很方便,对linux本书不熟悉,万一出个不是问题的错的话,那就over了。但是思来想去最后还是选择先使用linux来搭建这些环境(主要的是,你应该懂的,各种云服务器大多都是centos类似的。)
废话不多说,直接开始。
第一步:配python 以及 pip。(这个多好,好多都说要去考虑版本因素,只能选python2.x版本的,但是技术再发展,其实没有,就是看到新的就想要用新的,因为利用python3来做爬虫,我们这anaconda最新的版本就行了,不过我原来配置tensorflow时候选的python3.5版本的,anaconda4.2版本,所以现在也就不改了)
第二步:配置mongodb数据库,另外就是再添加一个mongodb可视化工具。因为爬下来的各种数据都有,直接就放到mongodb这种非结构化数据是最好的。(key-value)对。
先执行mongo ,会提示没有安装,然后会自动给出推荐的命令。
mongosudo apt install mongodb-clients
然后如果没有报错的话,就是直接安装下来。这个时候再来输入mongo就会提示相关的信息。
第二步:我们接着使用命令 mongod,同样的会提示没有安装,以及给出安装的命令行,按照此命令完成安装。
同样的一般安装没有什么问题,这个时候再来执行mongod,就会启动mongodb服务器,并显示出相应的配置,比如进程号pid,端口号 port:27017(默认的是28017 还是多少来着,这个也是自动分配的)。我们可以看到它一开始会报错,没有找到dbpath(存放个数据库的目录),然后它自己又生成了dbpath,不用自己配置多方便。
再运行mongo命令,进入mongodb交互式环境。这个时候我们就可以进行相关操作:比如向数据库里插入k-v键值对。
show dbsuse localdb.test.insert({'root':'yanguokai'})
在浏览器里面访问服务
第三步:mongodb可视化工具
下载完成之后,利用解压指令 tar -zxvf +文件名
直接解压,然后进入bin文件夹,运行启动程序命令。后面的就是一些基本协议认可之类的。
一开始没有连接数据库,所以我们点击creat,创建一个新的连接。比如address为:localhost :27017
另外连接成功后就可以可视化查看mongodb里面的内容了。
第四步:安装redis数据库:
sudo apt-get install redis-server
然后进入redis 命令行模式,并使用set get等相关命令插入和取出数据。注意的是,在使用set或者get命令的时候会有参数提示。
redis-cli
我们可以看到外面的地址是127.0.0.1,在redis的一个配置文件里redis.conf,我们需要注释掉这个bind ip 127.0.0.1,这样我们才能通过远程来访问这个redis,否则只能本地访问。另外还有一个就是需要开启一个访问redis的密码 requirepass。
(由于vi用的不是很习惯,所以就不用vi了)
sudo gedit /etc/redis/redis.conf
不过在用gedit打开的时候,终端显示了这样的东西,好像还是修改成功了,那就不管了。
这个时候就需要重新启动redis服务了。
sudo service redis restart
好像没有什么具体的提示重启完成了之类的。
再连接redis命令行,这个时候再get获取前面的键‘root’,会提示没有权限,我们退出redis-cli交互后,再使用另外一个命令(-a password) 将密码添加进来才可以。
redis-cli -a yanguokai
这样整体上的redis配置就已经完成了。
- python3 爬虫环境准备 (一)
- python3 爬虫环境准备 (二)
- python3 爬虫环境准备 (三)-常用库的安装
- python3爬虫学习(一)
- python3爬虫,最短时间实现(一)
- Python3 爬虫(一)-- 简单网页抓取
- Python3 爬虫(一)-- 简单网页抓取
- Python3爬虫下载pdf(一)
- python3爬虫(一)
- Python3爬虫笔记一
- python3 网络爬虫(一)反爬虫之我见
- hadoop环境搭建(一)环境准备
- python3 爬虫学习日记【一】
- 爬虫系列一:准备知识
- Python3爬虫(一)抓取网页的html
- Python3.6 爬虫初体验--urllib、beautifulsoup(一)
- python3 爬虫—爬取豆瓣电影图片(一)
- python3爬虫初探(一)之urllib.request
- 【解题报告】小胖守皇宫
- Stereo Matching文献笔记之(十):经典算法Semi-Global Matching(SGM)之碉堡的动态规划~
- 关于inodes占用100%的问题及解决方法
- 蒙特卡洛方法(Monte Carlo Method)
- java枚举类详解
- python3 爬虫环境准备 (一)
- 梯度提升树GBDT原理
- ps常用功能小结
- LTE学习笔记--LTE整体架构和协议架构概述
- cp覆盖时,不提示的用法
- Spring整合CXF之发布WebService服务
- Codeforces Round #420 (Div. 2) E. Okabe and El Psy Kongroo [矩阵快速幂]
- 判断单链表是否带环
- 【论文阅读】Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-S