文本分析之中文分词
来源:互联网 发布:asp.net编程软件 编辑:程序博客网 时间:2024/05/17 01:11
在处理文本分析时,我们经常需要面临的一个问题就是分词,特别是在中国当前的IT环境下,大部分文本数据都是中文,中文和英文有一些不一样,中文字与字之间没有明显的分隔符,而英文单词与单词之间有自然的空格符来分隔。中文分词属于自然语言处理的范畴,中文分词广泛应用于搜索引擎,在线机器翻译等领域。
分词常用的方法主要有以下三类,一个是基于字典匹配的分词方法,一个是基于语义分析的分词算法,还有一个是基于概率统计模型的分词方法。目前来讲,基于概率统计模型的分词方法效果比较好,基于语义分析的算法太复杂,基于字典匹配的算法相对比较简单,关于分词的原理推荐大家去看吴军的科普读物《数学之美》去了解更多信息。
以下介绍的是python中文分词工具包,jieba
具体可以参见:https://github.com/fxsjy/jieba
以上一篇文章中的书评为例:
豆瓣上对应的网址为:
http://book.douban.com/subject/26425831/comments/
操作思路:
先读取csv文件上对应的评论那一列,然后根据stopwords过滤,然后做分词,统计各个词出现的频率,代码就不贴了,直接贴运行的结果。
最后统计的评论中出现最多的前50个词语如下:
0 0
- 文本分析之中文分词
- 文本分析--jieba中文分词
- 中文分词分析之PDF批量转化为文本
- 中文分词一席谈之难点分析
- 中文分词一席谈之难点分析
- 中文文本挖掘课程笔记之jieba分词(1)
- 中文文本处理之jieba分词笔记(二)
- 用R做中文文本分析--用R进行文本挖掘与分析:分词、画词云
- 中文分词之基本分词
- 中文分词源代码分析
- lucene学习之中文文本分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- Solr之中文分词
- 字本位的中文文本分词
- 百度搜索引擎中文分词与文本粒度
- find 必杀技巧
- Android Jni开发之eclipse中创建Jni程序和打印log
- 在shell下批量管理redis数据
- 追女孩啥时候该表白
- programming in lua 之 lua api函数
- 文本分析之中文分词
- Oracle笔试题
- 简单的网络入侵法
- Android 开发技巧集合
- 【kali Linux】live u盘的persistence
- Android 中关于文件的读写操作
- Pycharm编码问题导致django UnicodeDecodeError 报错
- (总结)自定义属性
- linux/ubuntu取消sudo输入密码的办法