文本分析之中文分词

来源:互联网 发布:asp.net编程软件 编辑:程序博客网 时间:2024/05/17 01:11

在处理文本分析时,我们经常需要面临的一个问题就是分词,特别是在中国当前的IT环境下,大部分文本数据都是中文,中文和英文有一些不一样,中文字与字之间没有明显的分隔符,而英文单词与单词之间有自然的空格符来分隔。中文分词属于自然语言处理的范畴,中文分词广泛应用于搜索引擎,在线机器翻译等领域。

分词常用的方法主要有以下三类,一个是基于字典匹配的分词方法,一个是基于语义分析的分词算法,还有一个是基于概率统计模型的分词方法。目前来讲,基于概率统计模型的分词方法效果比较好,基于语义分析的算法太复杂,基于字典匹配的算法相对比较简单,关于分词的原理推荐大家去看吴军的科普读物《数学之美》去了解更多信息。

以下介绍的是python中文分词工具包,jieba
具体可以参见:https://github.com/fxsjy/jieba
以上一篇文章中的书评为例:
豆瓣上对应的网址为:
http://book.douban.com/subject/26425831/comments/

操作思路:
先读取csv文件上对应的评论那一列,然后根据stopwords过滤,然后做分词,统计各个词出现的频率,代码就不贴了,直接贴运行的结果。
这里写图片描述

最后统计的评论中出现最多的前50个词语如下:
这里写图片描述

0 0