NLTK开发环境搭建

来源:互联网 发布:如何判断sql注入 编辑:程序博客网 时间:2024/06/05 21:10

# 本文自《NLP汉语自然语言处理——原理与实践》(郑捷 著)第一章整理而来。


1. 安装 python 2.7

2. 安装 Numpy

        pip install numpy

3. 安装 anaconda

        从 https://conda.io/miniconda.html 下载所需版本,

        执行安装命令,如 bash Miniconda2-latest-Linux-x86_64.sh

4. 安装 scipy

        conda install scipy

5. 安装 Tornado

        pip install Tornado

6. 安装 NLTK 开发环境

        pip install nltk

7. 下载nltk语料库

        在命令行模式下,输入 python ,进入Python 交互行

        >>> import nltk

        >>> nltk.download()

        弹出下载界面,点击 Download 进行下载,下载完成后,点击All Packages选项卡,选中下载失败的项,并点击Download重新下载。

        (nltk的语料库都是英文语料库,如果做中文处理,不必下载全部,可按需下载)。

8. 将开源的中文NLP系统整合进NLTK,国内使用CRF做中文分词的开源系统主要为哈工大的HIT LTP语言技术平台。

        a. pip install pyltp

        b. 从http://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%252Fltp-models%252f3.3.0下载ltp的语言模型库。

        c. 在指定目录下新建一个ltp3.3文件夹(根据最新版本号),将模型文件解压到此文件夹下,其中

                cws.model : 中文分词模块所需的语言模型(二进制文件)

                fulluserdict.txt : 用户可添加的外部词典文件

        自此,可使用Ltp进行中文分词、词性标注等功能,所想使用结巴分词,只需 pip install jieba 即可,但结巴分词 的基础词库比ltp分词要少,准确度要差一下。

9. 安装 StanfordNLP  

        a. 安装配置java8+环境

        b. 从 https://stanfordnlp.github.io/CoreNLP/ 下载 CoreNLP文件

            但此文件只携带了英文的语言模型包 ,中文部分的语言模型包需要另外到 https://stanfordnlp.github.io/CoreNLP/index.html#download 下载。

        c. 将后者的中文模型全部移到前者的models中。


完。

原创粉丝点击