使用python做简单的中文自然语言处理
来源:互联网 发布:lun网络用语是什么意思 编辑:程序博客网 时间:2024/06/14 05:15
最近在学习NLP(自然语言处理),于是先看了看都有神马包可以使用,查了一遍网上说是NLTK包,下载了然后才想到我是要学中文的自然语言处理,于是就想看看专门处理中文的包有哪些。
又是一番搜索,我找到了网络大神们目前比较推崇的结巴分词(jieba),下载下来试了一下,感觉分词功能不错,于是写篇文章记录一下。
我用的是centos7的虚拟机,已经安装了anaconda3(后文会解释安装centos7虚拟系统的曲折经历),下载结巴分词有如下几种方式:
1、全自动安装:
easy_install jieba
或者 pip install jieba
/ pip3 install jieba(我是全自动安装的)
2、半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行
python setup.py install
3、手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
然后用root用户在终端直接进入python,进入python命令行页面。
代码示例如下(记得每次在print出结果之前,都需要对变量重新赋值):
# encoding=utf-8
import jieba
import jieba
seg_list= jieba.cut("我来到北京清华大学",cut_all=True)
print("Full Mode:" + "/ ".join(seg_list))# 全模式
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print("Default Mode:" + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(",".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(",".join(seg_list))
print("Full Mode:" + "/ ".join(seg_list))# 全模式
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print("Default Mode:" + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(",".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(",".join(seg_list))
目前就是刚刚上手,如何具体应用可能还需要跟nltk一起钻研后才能给出,我会在下一篇文章中做更深层次的说明。
阅读全文
0 0
- 使用python做简单的中文自然语言处理
- python自然语言处理-使用NLTK做统计分析
- 基于 Python 的简单自然语言处理
- python自然语言处理---jieba中文处理
- 最简单的介绍如何使用mmseg进行自然语言处理
- 自然语言处理的中文分词方法
- 自然语言处理的中文文本相似度
- 【python】python自然语言处理-----计算中文文本相似度
- 利用python做简单的图像处理
- 中文自然语言处理
- 自然语言处理中文 工具包
- 自然语言处理中文 工具包
- 自然语言处理中文 工具包
- 自然语言处理中文 工具包
- [读书笔记] 《中文自然语言处理》
- python 中自然语言处理(中文)——统计词频
- Python中文自然语言处理-NLTK 学习笔记1 chapter1
- python与自然语言处理(五):中文文本词云
- 蓝桥杯ALGO-95 2的次幂表示
- Redis系列教程Day1之Windows下的安装
- 364534543REWTERGTERTW
- 【备忘】2017年最新千峰python零基础入门视频教程下载
- Loaded plugins: fastestmirror
- 使用python做简单的中文自然语言处理
- HTML5与HTML4的区别,新增的元素有哪些?
- AngularJs(六) --指令(二)
- 【多线程】三种方案实现多线程之间相互协作的通信
- Centos 6.5 rsync+inotify 两台服务器文件实时同步
- 实验六 排序
- go语言工程管理
- 浅谈生成树计数问题,以SPOJ HIGH, BZOJ 4894, BZOJ 1016为例
- Python3 初学实践案例(8)使用 sqlite3 数据库存储生成的密码,prettytable 的使用