【4】构建基于scikit-learn的文本挖掘学习系统
来源:互联网 发布:福彩快3源码 编辑:程序博客网 时间:2024/06/06 09:49
转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html
配置开发环境
构建基于scikit-learn的文本挖掘学习系统
1. 下载和安装 python-2.7.8 for win322. 下载和安装 numpy-1.9.0-win32-superpack-python2.73. 下载和安装 scipy-0.14.0-win32-superpack-python2.74. 下载和安装 matplotlib-1.1.0.win32-py2.75. 下载和安装 结巴分词:jieba-master, 解压后运行 python setup.py install(参考网站: https://github.com/fxsjy/jieba)6. 下载和安装 scikit-learn-0.15.2.win32-py2.77. 解压scikit-learn-master,从example目录获取例子文件
运行Demo 程序
- 测试scikit-learn默认例子文件
打开例子 文件 plot_classifier_comparison.py
执行python 程序
输出图片:
scikit-learn安装成功!
- 测试结巴分词:
代码如下:
#encoding=utf-8import sys import jiebareload(sys) sys.setdefaultencoding('utf-8') seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print "Full Mode:", "/ ".join(seg_list) # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False) print "Default Mode:", "/ ".join(seg_list) # 精确模式seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式print ", ".join(seg_list)seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式print ", ".join(seg_list)
结果:
Building Trie..., from C:\Python27\lib\site-packages\jieba\dict.txtloading model from cache c:\users\jackycaf\appdata\local\temp\jieba.cacheloading model cost 2.55099987984 seconds.Trie has been built succesfully.Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学Default Mode: 我/ 来到/ 北京/ 清华大学他, 来到, 了, 网易, 杭研, 大厦小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ,, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
点评
上面流程是直接转载NLP论坛里面的帖子,内容一看就是新手写的,python文本处理工具很多,比如NLTK,目前已经集成了中文的Stanford分词。上面的配置是最简单的自己的处理文本的环境
python文本处理工具可以参考我之前的帖子
0 0
- 【4】构建基于scikit-learn的文本挖掘学习系统
- scikit-learn 文本挖掘概念
- 基于Scikit-Learn的五个文本分类案例研究
- 『数据挖掘』scikit-learn包的初级学习
- Scikit-learn实现基于模型的推荐系统(SVD)
- 基于 Python 和 Scikit-Learn 的机器学习介绍
- 基于 Python 和 Scikit-Learn 的机器学习介绍
- 基于 Python 和 Scikit-Learn 的机器学习介绍
- 基于Python的机器学习包 scikit-learn
- 基于 Python 和 Scikit-Learn 的机器学习介绍
- 基于 Python 和 Scikit-Learn 的机器学习介绍
- 基于Python和Scikit-Learn的机器学习介绍
- 基于 Python 和 Scikit-Learn 的机器学习介绍
- 基于 Python 和 Scikit-Learn 的机器学习介绍
- 转:基于 Python 和 Scikit-Learn 的机器学习介绍
- Tmsvm_基于SVM的文本挖掘系统
- Tmsvm_基于SVM的文本挖掘系统
- scikit-learn:构建文本分类的“pipeline”简化分类过程、网格搜索调参
- MongoDB 更新文档
- C++6.0软件所遇Bug汇总
- Android Studio 增加函数注释模板
- mysql基础知识
- 【python爬虫】爬取知乎收藏夹内所有图片
- 【4】构建基于scikit-learn的文本挖掘学习系统
- 实现抽象类内部的抽象方法
- 多数投票算法 --- A linear time majority vote algorithm
- SpringMVC通过@Value注解读取.properties配置
- decodeByteArray返回null
- 栈实验之数组逆序
- HDU 1525 Euclid's Game (博弈)
- Android5.0的更新包中system.new.dat文件的解包
- 50个C++学习网站