如何利用Python对中文进行分词处理
来源:互联网 发布:js变量命名的规则 编辑:程序博客网 时间:2024/05/19 23:05
python做中文分词处理主要有以下几种:结巴分词、NLTK、THULAC
1、fxsjy/jieba
结巴的标语是:做最好的 Python 中文分词组件,或许从现在来看它没做到最好,但是已经做到了使用的人最多。结巴分词网上的学习资料和使用案例比较多,上手相对比较轻松,速度也比较快。
结巴的优点:
- 支持三种分词模式
- 支持繁体分词
- 支持自定义词典
- MIT 授权协议
2、THULAC:一个高效的中文词法分析工具包
前两天我在做有关于共享单车的用户反馈分类,使用jieba分词一直太过零散,分类分不好。后来江兄给我推荐了THULAC: 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包 。THULAC的接口文档很详细,简单易上手。
THULAC分词的优点:
- 能力强。利用规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
- 准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%
- 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度达到1.3MB/s,速度比jieba慢
作者:路人甲
链接:https://www.zhihu.com/question/20922994/answer/156070002
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Python 解决中文编码问题基本可以用以下逻辑:
utf8(输入) ——> unicode(处理) ——> (输出)utf8
Python 里面处理的字符都是都是unicode 编码,因此解决编码问题的方法是把输入的文本(无论是什么编码)解码为(decode)unicode编码,然后输出时再编码(encode)成所需编码。
由于处理的一般为txt 文档,所以最简单的方法,是把txt 文档另存为utf-8 编码,然后使用Python 处理的时候解码为unicode(sometexts.decode('utf8')),输出结果回txt 的时候再编码成utf8(直接用str() 函数就可以了)。
Python 里面处理的字符都是都是unicode 编码,因此解决编码问题的方法是把输入的文本(无论是什么编码)解码为(decode)unicode编码,然后输出时再编码(encode)成所需编码。
由于处理的一般为txt 文档,所以最简单的方法,是把txt 文档另存为utf-8 编码,然后使用Python 处理的时候解码为unicode(sometexts.decode('utf8')),输出结果回txt 的时候再编码成utf8(直接用str() 函数就可以了)。
作者:知乎用户
链接:https://www.zhihu.com/question/20922994/answer/19975309
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
1 0
- 如何利用Python对中文进行分词处理
- Python利用结巴分词进行中文分词
- python中文分词,使用结巴分词对python进行分词
- 使用python对中文文本进行分词
- 利用Ansj中文分词工具对段落进行切词
- 利用jieba对多个中文txt文本进行分词
- 使用最大逆向法,利用python进行简易中文分词
- 利用python对一段英文文本进行分词,分句
- 【Rosseta中文分词】python下利用HMM思想进行中文分词
- PHP如何进行中文分词?
- 利用庖丁解牛工具进行中文分词
- 【Java】利用Ansj中文分词工具对段落进行切词
- 【自然语言处理入门】01:利用jieba对数据集进行分词,并统计词频
- 使用python jieba库进行中文分词
- Python调用PYNIPIR(ICTCLAS)进行中文分词
- python调用中科院分词器进行中文分词
- 利用Python对二进制数据进行按位处理
- 如何利用python中的langid,对文本语种进行分类
- 学习笔记: 源码 filler.hpp 简记
- Slave1 Error:JAVA_HOME is not set and could not be findz
- 在ROS中定义并使用自己的消息类型
- RuntimeError: Model class models.Seller doesn't declare an explicit app_label and isn't in an applic
- CSS中伪类及伪元素用法详解
- 如何利用Python对中文进行分词处理
- Android悬浮窗置于任务栏之上
- 让服务器能支持10万并发数秘诀,亲身经历,站在巨人的肩膀上创造
- Volley+ListView制作留言栏
- Spring2 Bean详解
- sklearn——PCA&LDA
- 二叉查找树
- DataX配置定时任务
- 换个账号继续