ubuntu14.04中开始Python NLP之旅(一)

来源:互联网 发布:北风网的大数据怎样 编辑:程序博客网 时间:2024/06/05 04:08

由于此系统是去年安装的,环境是ubuntu14.04。之前在Windows环境下已经安装好了python的环境,而且安装好了各种包,包括nltk,numpy,matplotlib等。打算将工作环境彻底换到ubuntu环境中,遂开始折腾安装环境,新手,有不对的还麻烦帮忙指出以便于改正。

1. 安装python3.5.2

在官网上面下载好了python3.5.2的包,然后解压安装,我安装到/usr/local/Python/Python-3.5.2/目录下,并且在/usr/bin下面删除了原有的python符号链接文件,为新安装的python3.5.2在/usr/bin/下面创建了python符号链接。测试,python3.5.2安装完毕。然后准备安装nltk,首先需要安装pip。结果在这里安装pip时候,遇到了很多错误,最后连系统都出现一点儿问题了。遇到的问题实在太多了,后来才发现ubuntu中已有的python2.7,是不能删除的,于是乎又使得/usr/bin下面的python符号链接文件,重新指向/usr/bin/python2.7。打算另辟新径。

看了一下python3.5的新特性(https://docs.python.org/3/whatsnew/3.5.html),然后nltk的要求是python2.7或者python3.2及以上版本(http://www.nltk.org/install.html)
最终决定还是使用系统自带的python3.4.3,而且3.5.2的环境也是没有删除的,也留着用。

2. 安装setuptools

tar -zxvf setuptools-32.1.2.zip
cd setuptools-32.1.2
python3 setup.py build
sudo python3 setup.py install

3. 安装pip

tar -zxvf pip-9.0.1.tar.gz
cd pip-9.0.1
python3 setup.py build
sudo python3 setup.py install

4.安装nltk

sudo pip install -U nltk
测试刚刚的安装
输入python3,进入到python3.4环境中,然后输入import nltk

5.安装软件包

安装Numpy
sudo pip install -U numpy
安装scipy
sudo pip install -U scipy
安装matplotlib
sudo pip install -U matplotlib

注意这里需要用sudo获取权限进行安装,否则会因为权限不足而报权限类错误

备注:有时候下载matplotlib这样的软件包,实在是速度太慢了,可以先下载好软件包之后,然后再使用pip形式进行本地安装。
首先安装wheel
sudo pip install wheel
matplotlib地址https://pypi.python.org/pypi/matplotlib/
scipy地址https://pypi.python.org/pypi/scipy/
下载时候,注意选择对应于自己python版本的软件包,比如我用python3.4,就下载matplotlib-2.0.0rc2-cp34-cp34m-manylinux1_x86_64.whl,注意“cp34”
然后就可以使用命令pip install XXX.whl来安装.whl的文件了

6.nltk_data

按照官方推荐的方式去下载安装,实在是太慢了。从百度云https://pan.baidu.com/s/1hq7UUFU 上面下载,解压。放在哪个目录下面呢?
输入python3之后,输入from nltk.book import *之后,会有一段错误提示

*** Introductory Examples for the NLTK Book ***Loading text1, ..., text9 and sent1, ..., sent9Type the name of the text or sentence to view it.Type: 'texts()' or 'sents()' to list the materials.Traceback (most recent call last):  File "/usr/local/lib/python3.4/dist-packages/nltk/corpus/util.py", line 63, in __load    try: root = nltk.data.find('corpora/%s' % zip_name)  File "/usr/local/lib/python3.4/dist-packages/nltk/data.py", line 641, in find    raise LookupError(resource_not_found)LookupError: **********************************************************************  Resource 'corpora/gutenberg.zip/gutenberg/' not found.  Please  use the NLTK Downloader to obtain the resource:  >>>  nltk.download()  Searched in:    - '/home/×××yourName/nltk_data'    - '/usr/share/nltk_data'    - '/usr/local/share/nltk_data'    - '/usr/lib/nltk_data'    - '/usr/local/lib/nltk_data'**********************************************************************During handling of the above exception, another exception occurred:Traceback (most recent call last):  File "<stdin>", line 1, in <module>  File "/usr/local/lib/python3.4/dist-packages/nltk/book.py", line 20, in <module>    text1 = Text(gutenberg.words('melville-moby_dick.txt'))  File "/usr/local/lib/python3.4/dist-packages/nltk/corpus/util.py", line 99, in __getattr__    self.__load()  File "/usr/local/lib/python3.4/dist-packages/nltk/corpus/util.py", line 64, in __load    except LookupError: raise e  File "/usr/local/lib/python3.4/dist-packages/nltk/corpus/util.py", line 61, in __load    root = nltk.data.find('corpora/%s' % self.__name)  File "/usr/local/lib/python3.4/dist-packages/nltk/data.py", line 641, in find    raise LookupError(resource_not_found)LookupError: **********************************************************************  Resource 'corpora/gutenberg' not found.  Please use the NLTK  Downloader to obtain the resource:  >>> nltk.download()  Searched in:    - '/home/***yourName/nltk_data'    - '/usr/share/nltk_data'    - '/usr/local/share/nltk_data'    - '/usr/lib/nltk_data'    - '/usr/local/lib/nltk_data'**********************************************************************

将下载的zip文件解压后,放置于上面五个目录中任意一个即可。

遇到的问题:

在Windows环境下,可以使用将需要下载的安装包链接复制到迅雷,让迅雷下载更快;但是我的ubuntu中没有安装wine,于是使用uget,aria2,并且在Firefox中安装flashgot插件,这样下载安装包会快一点儿。

参考网页

http://www.cnblogs.com/liujian001/p/5160869.html
http://www.nltk.org/install.html

其他可供参考网页

在 Ubuntu 14.04.3 上安装 Python 3.5
http://www.linuxidc.com/Linux/2016-07/132875.htm
ubuntu安装python3.5并改默认python为3.5
http://blog.csdn.net/qq_27657429/article/details/53482595

0 0