文本分析之中文分词

来源：互联网发布：asp.net编程软件编辑：程序博客网时间：2024/05/17 01:11

在处理文本分析时，我们经常需要面临的一个问题就是分词，特别是在中国当前的IT环境下，大部分文本数据都是中文，中文和英文有一些不一样，中文字与字之间没有明显的分隔符，而英文单词与单词之间有自然的空格符来分隔。中文分词属于自然语言处理的范畴，中文分词广泛应用于搜索引擎，在线机器翻译等领域。

分词常用的方法主要有以下三类，一个是基于字典匹配的分词方法，一个是基于语义分析的分词算法，还有一个是基于概率统计模型的分词方法。目前来讲，基于概率统计模型的分词方法效果比较好，基于语义分析的算法太复杂，基于字典匹配的算法相对比较简单，关于分词的原理推荐大家去看吴军的科普读物《数学之美》去了解更多信息。

以下介绍的是python中文分词工具包，jieba
具体可以参见：https://github.com/fxsjy/jieba
以上一篇文章中的书评为例：
豆瓣上对应的网址为：
http://book.douban.com/subject/26425831/comments/

操作思路：
先读取csv文件上对应的评论那一列，然后根据stopwords过滤，然后做分词，统计各个词出现的频率，代码就不贴了，直接贴运行的结果。
这里写图片描述

最后统计的评论中出现最多的前50个词语如下：
这里写图片描述

0 0