debian系统下配置爬虫环境

来源:互联网 发布:sql sum group by 编辑:程序博客网 时间:2024/05/18 00:51

debian系统下配置爬虫环境

  • 1.安装 selenium 环境
  • 2.安装Firefox 浏览器
  • 3.安装 django

1.安装 selenium 环境

sudo pip install -U selenium

出现 ReadTimeoutError: HTTPSConnectionPool类似错误,一般是因为网速太慢, sudo pip —default-timeout=800 install -U selenium(多试几遍)

2.安装 Firefox 浏览器

sudo su
apt-get update
apt-get install iceweasel

开始运行 Python 脚本报如下错:
selenium.common.exceptions.webDriverException:Message:’geckodriver’ executable needs to be in PATH错误

  • 先去这 个https://github.com/mozilla/geckodriver/releases网址下,下载一个最新的类似这种geckodriver-v0.12.0-arm7hf.tar.gz这种文件;
  • 然后在该压缩包目录下执行tar -xvf geckodriver-v0.12.0-arm7hf.tar.gz进行解压;
  • 接着执行./geckodriver;
  • 然后把解压之后的文件移到 sudo cp gecko driver /usr/local/bin/,之后, export PATH=$PATH:/usr/local/bin/;

报以下这种错:(版本不匹配)selenium.comon.exceptions.webdriverException:Message:unable to find a matching set of capbilities

  • 我的环境是 Python2.7.9 + selenium3.4.1+iceweasel45.9+geckodriver12,经测试是 OK 的

3.安装 django

sudo apt-get install python-django

运行Python manage.py rumserver
浏览器输入127.0.0.1:8000/admin
终端下出现 importError: no module named security
解决方法:去到setting.py文件,去掉 django.middleware.security.SecurityMiddleware;
当输入 username,password 进入后台时,出现 no such column:django_content_type.name
这是因为当前版本太低.
pip install django—1.8.1(这个不行,执行下面的)
去到 django宽网下载1.9.12的版本
然后解压
root 模式下,执行 Python setup.py install


0 0
原创粉丝点击