mahout将数据转化成序列化文件、稀疏向量
来源:互联网 发布:mysql 新建数据库 编辑:程序博客网 时间:2024/05/17 23:54
对于文本信息的向量化,Mahout 已经提供了工具类,它基于 Lucene 给出了对文本信息进行分析,然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式(转化成向量后可以聚类):
1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceFile文件是一种二制制存储的key-value键值对,对应的源文件是org.apache.mahout.text.SequenceFilesFromDirectory.java
2.mahout seq2sparse:将SequenceFile转成向量文件,对应的源文件是org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles.java
我是将mahout源码导入到eclipse中,对以上的两个源文件分别进行运行(运行时必须配置参数,有输入、输出、字符编码)转化的,生成的向量文件目录结构是:
df-count 目录:保存着文本的频率信息
tf-vectors 目录:保存着以 TF 作为权值的文本向量
tfidf-vectors 目录:保存着以 TFIDF 作为权值的文本向量
tokenized-documents 目录:保存着分词过后的文本信息
wordcount 目录:保存着全局的词汇出现的次数
dictionary.file-0 目录:保存着这些文本的词汇表
frequcency-file-0 目录 : 保存着词汇表对应的频率信息。
查看转化结果:
mahout seqdumper:将SequenceFile文件转成文本形式,对应的源文件是org.apache.mahout.utils.SequenceFileDumper.java
mahout vectordump:将向量文件转成可读的文本形式,对应的源文件是org.apache.mahout.utils.vectors.VectorDumper.java
mahout clusterdump:分析最后聚类的输出结果,对应的源文件是org.apache.mahout.utils.clustering.ClusterDumper.java具体每种命令如何用及参数如何选择,在命令行后面加-h或-help可以查看
下面是我在项目中用到的一些源码
- mahout将数据转化成序列化文件、稀疏向量
- mahout将文本数据转化成向量形式
- 将lucene索引转化成mahout输入向量
- 运行mahout 将学习集的序列化转化为向量报错Error: Java heap space(mapreduce运行内存调优)
- mahout将文件sequence化过程
- 将GrADS数据转化为netCDF文件
- 将汉字转化成首字母序列
- matlab的vectorize:将标量转化成向量
- opencv将二维向量转化成Mat类
- java将流水数据转化成稀疏格式的购物篮式public class AccountCode { private String accountCode; public String getAc数据
- mahout向量
- java代码实现将时间序列数据集(UCR)转化为weka能识别的.arff文件
- Opencv将视频转化成图像序列与将图像序列转化成视频
- Opencv将视频转化成图像序列与将图像序列转化成视频
- 数组将序列包含序列转化成二维的数组,序列包含序列包含序列转化成三维数组等等
- 将pdf文件转化成swf文件
- 将dt转化成Json数据
- 将二进制数据转化成图片
- codechef Johnny and the Beanstalk 题解
- MySQL存储引擎InnoDB、MyISAM 、其它存储引擎介绍
- iOS 开发和部署过程概述
- Sqlite3,C++开发详解
- 数据结构学习笔记-线索二叉树
- mahout将数据转化成序列化文件、稀疏向量
- ORACLE分页查询SQL语法——最高效的分页
- 跨行清算系统的实现过程
- hdu Tunnel Warfare(线段树)
- 就是找一个温暖的人过一辈子
- Android图形合成和显示系统---基于高通MSM8k MDP4平台
- Linux /dev目录详解
- 秋衣春生
- Android原理揭秘系列之View、ViewGroup