ubuntu下,django结合网络爬虫环境的搭建

来源:互联网 发布:js文件日历控件下载 编辑:程序博客网 时间:2024/04/29 22:27

后台环境搭建总结

一、安装scrapy

1.安装scrapy,在这个网站下载https://pypi.python.org/pypi/Scrapy/0.16.0(安装0.16版本,python不支持高版本)

2.下载的Scrapy-0.16.0.tar.gz还是一个压缩包,因此要解压,单击右键”提取到此处”,可直接将其解压提取到此处。

3.cdScrapy-0.16.0,再运行下面这句话:sudopython setup.py install来进行安装(Ctrl+Alt+T,在终端中运行,下面的命令都在终端中运行)。


二、安装Django.1.5.5ubuntu没有自带django

1.下载Django.1.5.5还是在https://pypi.python.org/pypi/Scrapy/0.16.0网站中找到Django.1.5.5进行下载

2.Django.1.5.5进行如上的解压,然后cd到此文件夹,运行下面这句话进行安装:sudopython setup.py install

3.安装pipsudoapt-get install python-pip

4.安装DDSsudopip install django-dynamic-scraper (默认安装的是django-dynamic-scraper-0.3.5)

5.安装diango-celery: sudo pip install django-celery (它自动安装的是celery-3.1.5)

(参考网站http://my.oschina.net/rc6688/blog/175508,是一中文安装文档)

Python中文分词组件jieba,下载解压安装sudopython setup.py install

http://www.oschina.net/p/jieba

.安装south0.8.4

1.下载South-0.8(下载步骤如上)

2.安装,步骤如上,然后在终端运行sudopython setup.py install命令进行安装



安装总结:运行sudopython setup.py install是安装命令

pip安装的卸载sudopip uninstall

easy_install安装的卸载sudoeasy_install -m

三、在软件中心下载mysql(client\server\emma)python-jswebkitpython-webkit这三个软件。

安装mysql

打开"终端窗",输入"sudoapt-get install mysql-servermysql-client"-->回车-->输入"y"-->回车-->"软件包设置对话框"中输入mysql"root"用户的密码-->回车-->再输一次密码-->回车,安装完成。

配置MySQL
注意,在UbuntuMySQL缺省是只允许本地访问的,如果你要其他机器也能够访问的话,那么需要改变/etc/mysql/my.cnf配置文件了!下面我们一步步地来:

默认的MySQL安装之后根用户是没有密码的,所以首先用根用户进入:

$mysql-u root

在这里之所以用-uroot是因为我现在是一般用户(firehare),如果不加-uroot的话,mysql会以为是firehare在登录。注意,我在这里没有进入根用户模式,因为没必要。一般来说,对mysql中的数据库进行操作,根本没必要进入根用户模式,只有在设置时才有这种可能。

进入mysql之后,最要紧的就是要设置Mysql中的root用户密码了,否则,Mysql服务无安全可言了。

mysql>GRANT ALL PRIVILEGES ON *.* TO root@localhost IDENTIFIED BY"123456";

注意,我这儿用的是123456做为root用户的密码,但是该密码是不安全的,请大家最好使用大小写字母与数字混合的密码,且不少于8位。
这样的话,就设置好了MySQL中的root用户密码了,然后就用root用户建立你所需要的数据库。



四、匹配数据库:(在setting中找到数据库的定义程序,在数据库中创建一个database)

pythonmanage.py syncdb

./manage.pymigrate (sudo python manage.py migrate )

运行DDS时,syncdb的用户名应该与settings里面的一致

运行dds的命令:scrapycrawl article_spider -a id=1 -a do_action=yes



五、导出dds界面的网页,命令如下:

cddds

cdexample_project/

pythonmanage.py runserver

绑定本机ip,例如:pythonmanage.py runserver 172.22.112.70:8000



六、安装过程中可能遇到的问题及解决办法

1、数据库解决中文支持问题

更改mysql自身配置以支持中文:

1.在终端输入命令sudogedit /etc/mysql/my.cnf在打开的文件中

[client]段下添加:

default-character-set= utf8

[mysqld_safe]段下添加:

default-character-set= utf8

[mysqld]段下添加:

character_set_server= utf8

init_connect= 'SET NAMES utf8'

[mysql]段下添加:

default-character-set= utf8



2.
(为了安全起见这一步最好执行)在终端输入命令mysql-u root -p
提示你输入密码:你的root用户的密码
进入到mysql输入命令setnames utf8//这里只可以是utf8不可以是utf-8,因为linux下的mysql不认识utf-8

3.
重启mysql命令以便让你上面的修改生效
sudo/etc/init.d/mysql restart

4.
检查mysql字符集
命令一:showvariables like 'character%';出现
+--------------------------+----------------------------+
|Variable_name | Value|
+--------------------------+----------------------------+
|character_set_client | utf8 |
| character_set_connection | utf8|
| character_set_database | utf8 |
| character_set_filesystem| binary |
| character_set_results | utf8 |
|character_set_server | utf8 |
| character_set_system | utf8 |
|character_sets_dir | /usr/share/mysql/charsets/|
+--------------------------+----------------------------+


2.解决上外网问题

1.首先连接内网打开终端输入:sudoapt-get update 更新软件源

2.然后在输入:sudoapt-get install build-essential 安装库文件。

3.build-essential安装完成有cd命令跳转到openkeeper-cli-1.1所在目录

4.输入:sudotar -xvf openkeeper-cli-1.1.tar.gz 解压生成openkeeper-cli-1.1文件

5.cdopenkeeper-cli-1.1

6.ls显示openkeeper-cli-1.1内容

7.cd32(如果系统是64位,跳到64文件中)

8.再输入:sudosh ./install.sh 进行安装

9.安装完成:sudook-config设置上网帐号,密码和网卡(网卡是eth0至于为什么是,我也不清出)。10.配置完成:sudook进行拨号上网。

11.sudookok掉线自动重播。

  1. 创建数据库

进入数据库:mysql-uroot -p

创建数据库:mysql>createdatabase xxx;

展示创建的数据库:mysql>showdatabases;

创建表:mysql>createtable

展示创建的表:mysql>showtables;

查找表中的内容:mysql>select* from xxx

4.数据库改密码

#/etc/init.d/mysql stop

#mysqld_safe --user=mysql --skip-grant-tables --skip-networking & (提示没有权限时在前面加sudo)

#mysql -u root mysql

mysql>UPDATE user SET Password=PASSWORD('newpassword') where USER='root';

mysql>FLUSH PRIVILEGES;

mysql>quit

#/etc/init.d/mysql restart

#mysql -uroot -p

Enterpassword: <输入新设的密码newpassword>

mysql>


6.sudoapt-get install python-scrapy

Scrapy依赖库的安装
ubuntu12.04
scrapy依赖库的安装
ImportError:No module named w3lib.http

解决办法:pipinstall w3lib


ImportError:No module named twisted

解决办法:pipinstall twisted


ImportError:No module named lxml.html

解决办法:pipinstall lxml


解决:error:libxml/xmlversion.h: No such file or directory

解决办法:apt-getinstall libxml2-dev libxslt-dev
apt-get install python-lxml


解决:ImportError:No module named cssselect

解决办法:pipinstall cssselect


ImportError:No module named OpenSSL

解决办法:pipinstall pyOpenSSL 


解决:ImportError:No module named queuelib

解决办法:https://pypi.python.org/pypi/queuelib#downloads

下载安装sudopython setup.py install


0 0
原创粉丝点击