NLTK开发环境搭建

来源：互联网发布：如何判断sql注入编辑：程序博客网时间：2024/06/05 21:10

# 本文自《NLP汉语自然语言处理——原理与实践》（郑捷著）第一章整理而来。

1. 安装 python 2.7

2. 安装 Numpy

pip install numpy

3. 安装 anaconda

从 https://conda.io/miniconda.html 下载所需版本，

执行安装命令，如 bash Miniconda2-latest-Linux-x86_64.sh

4. 安装 scipy

conda install scipy

5. 安装 Tornado

pip install Tornado

6. 安装 NLTK 开发环境

pip install nltk

7. 下载nltk语料库

在命令行模式下，输入 python ，进入Python 交互行

>>> import nltk

>>> nltk.download()

弹出下载界面，点击 Download 进行下载，下载完成后，点击All Packages选项卡，选中下载失败的项，并点击Download重新下载。

（nltk的语料库都是英文语料库，如果做中文处理，不必下载全部，可按需下载）。

8. 将开源的中文NLP系统整合进NLTK，国内使用CRF做中文分词的开源系统主要为哈工大的HIT LTP语言技术平台。

a. pip install pyltp

b. 从http://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%252Fltp-models%252f3.3.0下载ltp的语言模型库。

c. 在指定目录下新建一个ltp3.3文件夹（根据最新版本号），将模型文件解压到此文件夹下，其中

cws.model : 中文分词模块所需的语言模型（二进制文件）

fulluserdict.txt : 用户可添加的外部词典文件

自此，可使用Ltp进行中文分词、词性标注等功能，所想使用结巴分词，只需 pip install jieba 即可，但结巴分词的基础词库比ltp分词要少，准确度要差一下。

9. 安装 StanfordNLP

a. 安装配置java8+环境

b. 从 https://stanfordnlp.github.io/CoreNLP/ 下载 CoreNLP文件

但此文件只携带了英文的语言模型包，中文部分的语言模型包需要另外到 https://stanfordnlp.github.io/CoreNLP/index.html#download 下载。

c. 将后者的中文模型全部移到前者的models中。

完。

阅读全文

0 0