linux python 爬虫 服务器部署 crontab定时执行
来源:互联网 发布:sql 双竖线是什么意思 编辑:程序博客网 时间:2024/05/18 13:09
由于python版本比较多,python2与python3兼容又不好,导致很多扩展库版本也很多,安装扩展库就容易碰到问题,有些直接yum就可以安装,有些需要用pip安装,有些需要直接下载安装,我这里就列举几个我碰到的吧。
可以用virtualenv这个虚拟环境
也可以用conda这个工具,我这里就是手动安装没有借助这种扩展库管理工具。
先把本地python项目上传到服务器,可以用rz工具,也可以用svn,我是先运行,再根据报错信息添加扩展库,这里安装python34。
1.安装yum资源扩展仓库:
yum install https://centos7.iuscommunity.org/ius-release.rpm -y
如果还没安装python3则安装python34:
yum install python34 -y
2.先安装pip3: yum search pip
可以看到:
安装pip3: yum install python34-pip -y
然后看版本信息:pip3 –version 能看到版本信息则安装成功。
3.运行spider.py:python3 spider.py
首先看一下爬虫引用了那些扩展:
看到报错(如果报错跟re相关,则直接安装正则扩展即可:pip3 install regex):
可以看到缺少mysql.connector扩展
安装:yum search mysql-connector
可以看到版本不正确,只支持py2,不必安装了
pip安装:pip3 search mysql-connector
找到了,安装:pip3 install mysql-connector
但是:
报错了!
换种方式安装,下载下来自己手动安装:
wget https://dev.mysql.com/get/Downloads/Connector-Python/mysql-connector-python-2.1.5.tar.gz –no-check-certificate
如果没有安装wget工具先安装wget:yum install wget -y
下载下来后解压安装:
python3 setup.py install
安装成功,然后在运行爬虫:python3 spider.py
库文件问题已经变了
当然用pymysql更简单一些,用pip3可以直接安装成功
4.可以看到现在是缺少requests扩展,安装:
pip3 install requests
安装pyquery
pip3 install pyquery
安装Beautifulsoup:
pip3 install Beautifulsoup
报错了,寻找解决办法,进Beautifulsoup官网:
可以看到安装版本不正确:
pip3 install Beautifulsoup4
安装成功。
python3 spider.py 运行正常,能够爬取打印数据
5.添加定时任务:
crontab -e
输入:
/20 * * * python3 /project/python/spider.py
这个任务代表每20分钟以python3 运行/project/python/spider.py文件一次,规则如下:
保存退出,如果没有错误提示说明格式正确。
添加任务成功。
查看定时任务结果:
cat /var/log/cron
我这里爬到的打印结果,此时数据库也应该有数据了。
- linux python 爬虫 服务器部署 crontab定时执行
- linux定时执行crontab
- Linux crontab定时执行
- 如何在服务器(Linux)里面定时(crontab)执行需要虚拟环境(venv)的代码(爬虫)
- crontab 定时执行python脚本
- crontab 定时执行python脚本
- Ubuntu<使用crontab执行定时爬虫任务>
- Linux环境下crontab定时执行Python脚本(远程)
- linux 定时任务 定时执行某脚本 定期爬虫 统计 刷新 crontab -e
- Linux 定时执行程序 crontab
- crontab (linux 定时执行工具)
- linux定时执行crontab使用方法
- Linux crontab定时执行任务
- Linux 定时执行器crontab
- Linux crontab定时执行指令
- Linux crontab 定时执行任务
- Linux crontab定时执行任务
- Linux crontab定时执行任务
- .net 后台数据校验,电话号码,邮箱地址,IP有效性
- 连接到 Azure 上的 SQL Server 虚拟机(经典部署)
- 浅谈HTTP长连接
- [最大生成树+LCA]NOIP 2013——货车运输
- 解决分布式调用时候数据的一致性
- linux python 爬虫 服务器部署 crontab定时执行
- [App] DNS 单点安装
- 前端面试知识点个人总结
- centOS 安装mongodb
- python如何查找函数文档
- 微信H5网页分享API 调用
- linux文件权限操作
- SpringMVC入门及系列教程(二)-SpringMVC请求周期及响应处理(初级)(详细)
- PHP程序员的技术成长规划