python3 爬虫环境准备 (一)

来源:互联网 发布:笔记本风扇转速软件 编辑:程序博客网 时间:2024/06/01 08:06

虽然对于windows下可视化安装操作都很方便,对linux本书不熟悉,万一出个不是问题的错的话,那就over了。但是思来想去最后还是选择先使用linux来搭建这些环境(主要的是,你应该懂的,各种云服务器大多都是centos类似的。)

废话不多说,直接开始。
第一步:配python 以及 pip。(这个多好,好多都说要去考虑版本因素,只能选python2.x版本的,但是技术再发展,其实没有,就是看到新的就想要用新的,因为利用python3来做爬虫,我们这anaconda最新的版本就行了,不过我原来配置tensorflow时候选的python3.5版本的,anaconda4.2版本,所以现在也就不改了)

第二步:配置mongodb数据库,另外就是再添加一个mongodb可视化工具。因为爬下来的各种数据都有,直接就放到mongodb这种非结构化数据是最好的。(key-value)对。

先执行mongo ,会提示没有安装,然后会自动给出推荐的命令。

mongosudo apt install mongodb-clients

这里写图片描述

然后如果没有报错的话,就是直接安装下来。这个时候再来输入mongo就会提示相关的信息。
第二步:我们接着使用命令 mongod,同样的会提示没有安装,以及给出安装的命令行,按照此命令完成安装。
这里写图片描述

同样的一般安装没有什么问题,这个时候再来执行mongod,就会启动mongodb服务器,并显示出相应的配置,比如进程号pid,端口号 port:27017(默认的是28017 还是多少来着,这个也是自动分配的)。我们可以看到它一开始会报错,没有找到dbpath(存放个数据库的目录),然后它自己又生成了dbpath,不用自己配置多方便。

这里写图片描述

再运行mongo命令,进入mongodb交互式环境。这个时候我们就可以进行相关操作:比如向数据库里插入k-v键值对。

show dbsuse localdb.test.insert({'root':'yanguokai'})

在浏览器里面访问服务

这里写图片描述

第三步:mongodb可视化工具
这里写图片描述

这里写图片描述

下载完成之后,利用解压指令
tar -zxvf +文件名
直接解压,然后进入bin文件夹,运行启动程序命令。后面的就是一些基本协议认可之类的。
这里写图片描述

这里写图片描述

这里写图片描述

一开始没有连接数据库,所以我们点击creat,创建一个新的连接。比如address为:localhost :27017
这里写图片描述

这里写图片描述

这里写图片描述

另外连接成功后就可以可视化查看mongodb里面的内容了。

这里写图片描述

第四步:安装redis数据库:

sudo apt-get install redis-server

这里写图片描述

这里写图片描述

然后进入redis 命令行模式,并使用set get等相关命令插入和取出数据。注意的是,在使用set或者get命令的时候会有参数提示。

redis-cli

这里写图片描述

我们可以看到外面的地址是127.0.0.1,在redis的一个配置文件里redis.conf,我们需要注释掉这个bind ip 127.0.0.1,这样我们才能通过远程来访问这个redis,否则只能本地访问。另外还有一个就是需要开启一个访问redis的密码 requirepass。
(由于vi用的不是很习惯,所以就不用vi了)

sudo gedit /etc/redis/redis.conf

这里写图片描述
这里写图片描述

这里写图片描述

这里写图片描述

不过在用gedit打开的时候,终端显示了这样的东西,好像还是修改成功了,那就不管了。

这里写图片描述

这个时候就需要重新启动redis服务了。

sudo service redis restart

好像没有什么具体的提示重启完成了之类的。

再连接redis命令行,这个时候再get获取前面的键‘root’,会提示没有权限,我们退出redis-cli交互后,再使用另外一个命令(-a password) 将密码添加进来才可以。

redis-cli -a yanguokai

这里写图片描述

这样整体上的redis配置就已经完成了。