【Python3.6爬虫学习记录】(十三)在阿里云服务器上运行爬虫

来源:互联网 发布:javascript数组定义 编辑:程序博客网 时间:2024/06/07 04:07

前言:
也快开学了,学习的兴趣逐渐下降。搞点事情,增加点乐子。
昨天比较了阿里云和腾讯云,都有免费试用机会。都要先实名认证,阿里云每天10点开始抢资格,可以免费领取六个月的基础版;腾讯每天9:30开始抢资格,只能试用七天。其次,阿里云有学生版,每月9.9;腾讯以前有学生版,目前没有了。之后又发现还有京东云,也是免费使用六个月。
早上写了一篇博客,想起来时候都9:40了,于是就准备抢阿里云的资格。本以为竞争会很激烈,十点一到,F5按起,马上开抢,没想到很轻松的就领取到了。
由于之前没啥了解过,网上关于在云服务器上运行爬虫的资料也没有。充满了疑问,如何让爬虫一直运行?如何上传,下载文件?
所以开始了一段艰辛的探索之路。其实摸索一下都明白了,现在把一些认识写下来。

关于云服务器,vps,虚拟主机的区别
云服务器
有独立的操作系统、CPU、内存、硬盘……就像操作自己的电脑那样简单,每台云服务器都有自己的独立ip、数据库……根据服务器配置的不同(这点和我们家用主机是一个理,在此不多解释。)用途也不一样
虚拟机
就是将一台主机用软件分为多个分区,比如一台ip为192.168.1.1的主机,服务商(空间商)为了赚取更多的利润,他会将这台主机划分为多个虚拟机对外出租,说白了虚拟机即共享机,就是多个用户共享一台主机。这种主机不适合搭建大型网站,更不适合长久发展。
VPS主机(VirtualPrivate Server虚拟专用服务器)
将一部服务器分割成多个虚拟专享服务器的优质服务。每个VPS都可分配独立公网IP地址、独立操作系统、独立超大空间、独立内存、独立CPU资源、独立执行程序和独立系统配置等。用户除了可以分配多个虚拟主机及无限企业邮箱外,更具有独立服务器功能,可自行安装程序,单独重启服务器。

参考链接:
云服务器和云虚拟主机和vps有什么区别?

云服务器的购买
参考说明,以及搭配自己的使用情况,大多都可以默认选择。

最主要的是镜像,可以理解为包括操作系统以及操作环境的安装包。

公共镜像只有操作系统,需要自己配置环境,其中操作系统分为Windows和Linux。
Windows包括Windows server 2008 (32位,64位;中文版,英文版)以及 2012(中文版,英文版);
Linux包括Ubuntu,Debian,SUSE Linux,CentOS,openSUSE,Aliyun Linux,CoreOS,FreeBSD;(32位,64位)

还有自定义镜像(可以自己用本地软件,系统配置,然而不支持win7,win8.1,win10),共享镜像(从别的用户那里拷贝)

最后要说的是有镜像市场,基本都是免费的。不幸的是Windows版本且是python环境的的镜像中都是python2.7。(Linux的到是齐全,但是无界面,实在不习惯)

当然,选定之后,镜像可以随时再更改,选择更换系统盘即可。

购买之后
这里额外提一句,免费的送了20G数据盘。几乎所有的教程都说要先格式化,然而送的数据盘不用格式化就可以用了。

远程连接
分为网页远程连接和远程桌面连接。网页连接输入弹框给你的六位数密码就行了。
下面重点说一说远程桌面连接。

远程桌面连接
在自己的电脑左下角输入mstsc,选择远程连接
这里写图片描述
其中计算机名就是共有IP
共有IP就是外网IP(供别人连接),私有IP就是内网IP(你自己特有的IP)

输入用户名(默认的是administrator)和密码(就是那个必须包括三种类型的密码)

连接,进入云服务器后,可以自由切换使用本地电脑和云服务器。

不是问题的问题
①上传下载文件
在远程桌面连接时,选择左下角的显示选项,出现下面的页面,选择本地资源,勾选驱动器,然后选择要用的磁盘
这里写图片描述
可以把上传的文件放到这个数据盘中,等进入后,可以看见这个数据盘。选的这个数据盘就相当于移动硬盘或者说是U盘。也可以将云服务器的文件放到这个数据盘,断开后,就可以在电脑上使用。

②配置python环境
在云服务器上打开IE浏览器(建议关闭增强安全检查,不然太烦人,管理服务器->本地数据->IE增强安全->开启->关闭),下载python,然后配置相关的库。
然而我的体验并不好,不知道为啥下载这么慢,几十kb。这时候就可以在自己电脑上下载,利用远程桌面连接进行上传,再copy到云服务器上(这个阶段和U盘操作差不多快)。

③让程序一直运行
云服务器之所以叫云服务器,就是因为在云上运行,你可以对它进行启动,重启,停止,更新等操作。
如果不人为停止,它就会一直运行,不会自己停止(关机),仅仅断开远程连接并没有影响。
所以,我们可以在上面运行爬虫,利用循环,休眠,让程序一直运行,然后我们断开连接,做自己的事情,而程序自己还在云上运行。

路漫漫其修远兮
吾将上下而求索

阅读全文
0 0
原创粉丝点击