将txt文本格式存储的词id表示的数据集存为matlab中的sparse格式
来源:互联网 发布:linux根据端口查进程 编辑:程序博客网 时间:2024/06/06 05:07
将txt文本格式存储的词id表示的数据集存为matlab中的sparse格式
在对文本数据进行聚类的时候,经常会处理超高维的稀疏矩阵。例如进行K-means聚类的时候,特别是短文本聚类,输入往往是
以下sparse_matrix.m以及str2numarray.m便是作以上处理的matlab代码:
sparse_matrix
输入符号说明:
- path txt文件路径,文件存储为词id表示的数据集,一行为一篇文档,词用数值id表示
- row 文档数量
- col 词典大小,词id序号cong1开始
输出符号说明:
- fea 词id表示的超稀疏矩阵
function [ fea ] = sparse_matrix( path, row, col )fea = sparse(row, col);file = fopen(path);line = fgetl(file);count = 1;while ischar(line) array = str2numarray(line); for i = 1:length(array) fre = full(fea(count, i)); if fre == 0 fea(count, i) = 1; else fea(count, i) = 1 + fre; end end line = fgetl(file); count = count + 1;endfclose(file);end
str2numarray
输入符号说明:
- line 一篇文档,字符串格式,其中词用数值id表示(id从1开始)
输出符号说明:
- numarray 一篇文档,数值数组格式,对用输入
function [ numarray ] = str2numarray( line )temp='';numarray=[];for i=1:1:length(line) if line(i)~=' ' temp=[temp,line(i)]; else if ~isempty(temp) numarray=[numarray,str2num(temp)]; temp=''; end endendif ~isempty(temp) numarray=[numarray,str2num(temp)];endend
参考:
- https://zhidao.baidu.com/question/520968496.html
- https://zhidao.baidu.com/question/1755311557291409468.html
0 0
- 将txt文本格式存储的词id表示的数据集存为matlab中的sparse格式
- word存为txt文本、rtf格式的文件
- Matlab将mat格式数据保存为txt格式
- 将matlab中数据保存为txt或dat格式
- 将matlab中数据保存为txt或dat格式
- 将matlab中数据保存为txt或dat格式
- 将matlab中数据保存为txt或dat格式
- 关于 用java 程序将字符串 保存为 windows ANSI编码格式 txt 文本的 问题解决
- 利用matlab将自己的数据制作为标准VOC数据集格式
- 如何将txt格式的数据导入到MATLAB中,并绘制图线
- Matlab将图片转换成asc码txt文本格式
- 将Excel中存储为文本的数字转换为数字格式
- 保存matlab的.mat文件为txt格式
- 数据库的字段不够用的时候,可以将数据存为json格式
- 数据库的字段不够用的时候,可以将数据存为json格式
- 将matlab中数据输出保存为txt或dat格式
- 将matlab中数据输出保存为txt或dat格式
- 将matlab中数据输出保存为txt或dat格式
- caffe通过python(pycaffe)在已有模型上进行批量预测,批量提取特征
- 10 条提升 Android 性能的建议
- 基于git maven jenkins的自动构建发布系统三
- php常用命令--定位php.ini文件
- C51单片机输出printf需要做的初始化操作
- 将txt文本格式存储的词id表示的数据集存为matlab中的sparse格式
- 三角函数和差公式的推导
- 最近重新在Hadoop集群上安装apache-hive操作记录
- 解决关于python3.4 在windows安装Pillow、lxml 和 ubuntu lxml 安装失败问题
- GBDT梯度提升算法调参
- 列表(list)、元组(tuple)、字典(dict)和集合(set)的主要区别
- RHEL7.0时间同步设置
- 数据库中间件
- Maven 详解归纳