【Python3.6爬虫学习记录】(十三)在阿里云服务器上运行爬虫
来源:互联网 发布:javascript数组定义 编辑:程序博客网 时间:2024/06/07 04:07
前言:
也快开学了,学习的兴趣逐渐下降。搞点事情,增加点乐子。
昨天比较了阿里云和腾讯云,都有免费试用机会。都要先实名认证,阿里云每天10点开始抢资格,可以免费领取六个月的基础版;腾讯每天9:30开始抢资格,只能试用七天。其次,阿里云有学生版,每月9.9;腾讯以前有学生版,目前没有了。之后又发现还有京东云,也是免费使用六个月。
早上写了一篇博客,想起来时候都9:40了,于是就准备抢阿里云的资格。本以为竞争会很激烈,十点一到,F5按起,马上开抢,没想到很轻松的就领取到了。
由于之前没啥了解过,网上关于在云服务器上运行爬虫的资料也没有。充满了疑问,如何让爬虫一直运行?如何上传,下载文件?
所以开始了一段艰辛的探索之路。其实摸索一下都明白了,现在把一些认识写下来。
关于云服务器,vps,虚拟主机的区别
云服务器
有独立的操作系统、CPU、内存、硬盘……就像操作自己的电脑那样简单,每台云服务器都有自己的独立ip、数据库……根据服务器配置的不同(这点和我们家用主机是一个理,在此不多解释。)用途也不一样
虚拟机
就是将一台主机用软件分为多个分区,比如一台ip为192.168.1.1的主机,服务商(空间商)为了赚取更多的利润,他会将这台主机划分为多个虚拟机对外出租,说白了虚拟机即共享机,就是多个用户共享一台主机。这种主机不适合搭建大型网站,更不适合长久发展。
VPS主机(VirtualPrivate Server虚拟专用服务器)
将一部服务器分割成多个虚拟专享服务器的优质服务。每个VPS都可分配独立公网IP地址、独立操作系统、独立超大空间、独立内存、独立CPU资源、独立执行程序和独立系统配置等。用户除了可以分配多个虚拟主机及无限企业邮箱外,更具有独立服务器功能,可自行安装程序,单独重启服务器。
参考链接:
云服务器和云虚拟主机和vps有什么区别?
云服务器的购买
参考说明,以及搭配自己的使用情况,大多都可以默认选择。
最主要的是镜像,可以理解为包括操作系统以及操作环境的安装包。
公共镜像只有操作系统,需要自己配置环境,其中操作系统分为Windows和Linux。
Windows包括Windows server 2008 (32位,64位;中文版,英文版)以及 2012(中文版,英文版);
Linux包括Ubuntu,Debian,SUSE Linux,CentOS,openSUSE,Aliyun Linux,CoreOS,FreeBSD;(32位,64位)
还有自定义镜像(可以自己用本地软件,系统配置,然而不支持win7,win8.1,win10),共享镜像(从别的用户那里拷贝)
最后要说的是有镜像市场,基本都是免费的。不幸的是Windows版本且是python环境的的镜像中都是python2.7。(Linux的到是齐全,但是无界面,实在不习惯)
当然,选定之后,镜像可以随时再更改,选择更换系统盘即可。
购买之后
这里额外提一句,免费的送了20G数据盘。几乎所有的教程都说要先格式化,然而送的数据盘不用格式化就可以用了。
远程连接
分为网页远程连接和远程桌面连接。网页连接输入弹框给你的六位数密码就行了。
下面重点说一说远程桌面连接。
远程桌面连接
①在自己的电脑左下角输入mstsc,选择远程连接
其中计算机名就是共有IP
共有IP就是外网IP(供别人连接),私有IP就是内网IP(你自己特有的IP)
②输入用户名(默认的是administrator)和密码(就是那个必须包括三种类型的密码)
③连接,进入云服务器后,可以自由切换使用本地电脑和云服务器。
不是问题的问题
①上传下载文件
在远程桌面连接时,选择左下角的显示选项,出现下面的页面,选择本地资源,勾选驱动器,然后选择要用的磁盘
可以把上传的文件放到这个数据盘中,等进入后,可以看见这个数据盘。选的这个数据盘就相当于移动硬盘或者说是U盘。也可以将云服务器的文件放到这个数据盘,断开后,就可以在电脑上使用。
②配置python环境
在云服务器上打开IE浏览器(建议关闭增强安全检查,不然太烦人,管理服务器->本地数据->IE增强安全->开启->关闭),下载python,然后配置相关的库。
然而我的体验并不好,不知道为啥下载这么慢,几十kb。这时候就可以在自己电脑上下载,利用远程桌面连接进行上传,再copy到云服务器上(这个阶段和U盘操作差不多快)。
③让程序一直运行
云服务器之所以叫云服务器,就是因为在云上运行,你可以对它进行启动,重启,停止,更新等操作。
如果不人为停止,它就会一直运行,不会自己停止(关机),仅仅断开远程连接并没有影响。
所以,我们可以在上面运行爬虫,利用循环,休眠,让程序一直运行,然后我们断开连接,做自己的事情,而程序自己还在云上运行。
路漫漫其修远兮
吾将上下而求索
- 【Python3.6爬虫学习记录】(十三)在阿里云服务器上运行爬虫
- 【Python3.6爬虫学习记录】(十四)多线程爬虫模板总结
- 【Python3.6爬虫学习记录】(三)简单的爬虫实践-豆瓣《河神》演员图片及姓名
- python3爬虫学习(一)
- 【Python3.6爬虫学习记录】(九)模拟登陆QQ空间爬取好友所有留言并制作词云
- 【Python3.6爬虫学习记录】(一)爬取简单的静态网页图片
- 【Python3.6爬虫学习记录】(二)使用BeautifulSoup爬取简单静态网页文章
- 【Python3.6爬虫学习记录】(四)爬取百度贴吧某帖子内容及图片
- 【Python3.6爬虫学习记录】(五)Cookie的使用以及简单的爬取知乎
- 【Python3.6爬虫学习记录】(六)urllib详细使用方法(header,代理,超时,认证,异常处理)
- 【Python3.6爬虫学习记录】(七)使用Selenium+ChromeDriver爬取知乎某问题的回答
- 【Python3.6爬虫学习记录】(八)Selenium模拟登录新浪邮箱并发送邮件
- python3爬虫学习
- Python3简单爬虫学习
- python3爬虫基础学习
- Python3爬虫入门学习
- python3爬虫学习
- python3 urllib爬虫抓取记录
- JDK文档、枚举、包装类
- 位运算
- Shell判断字符串包含关系的方法小结
- Struts2的执行流程
- Java爬虫系列之一HttpClient【爬取京东Python书籍信息】
- 【Python3.6爬虫学习记录】(十三)在阿里云服务器上运行爬虫
- 2.1 栈的练习题
- android新开一个单线程的后台线程
- 安卓图形matrix矩阵变换的数学原理及代码
- 分享一个安装eclipse反编译工具的网址
- 网页端弹窗创建的正确方式
- Unity入门操作_碰撞器 _013
- hdu 6153 A Secret (KMP)
- Linux命令——wc