待分析数据数值化
来源:互联网 发布:mysql读写分离 效率 编辑:程序博客网 时间:2024/05/24 01:50
常用的一些数据,如地区、关键词、url网址,这些需要进入到数据挖掘系统中进行处理,而由于算法常用会采用距离计算的方式进行采用,这些数据需要从字符数据转换为数值数据,并且逻辑化。
通常建立一个有自递增字段的表,然后将数据去重填充进去,就得到了数值化的数据了
但是这样的数据基本会有一个问题,就是各个数值之间其实基本是不存在逻辑上的关联的,所以在做一些向量化分析的时候得到的数据往往很诡异或者和现实压根不搭边。
通常人会按照层级模式对数据分类,而对待分析数据的数值化可以采用层级编码的方式处理,大类编码在前,次级随后。
比如地区数据的编码,第一位对国家编码,随后的作为地区的编码,然后是更低一级的区域单位。
目前全球有上百个国家,几千个次级区域单位,所以逻辑化后的区域数值在统计分析时,基于最低级的单位的聚类是最易于被识别的,而基于较高级别的区域单位的聚类则需要更多的数据样本和更大的取样区间才能被识别出来。
关键词,尤其是具有层级结构的一系列关键词,被逻辑化后对数据的抽取分析有更大的帮助。
url的数值逻辑化依据的是网站的拓扑结构,但是与之对应的逻辑结构则是网站信息的频道分类。
0 0
- 待分析数据数值化
- 数值分析:数据插值方法
- 数值分析Matlab三维数据网格图
- 数值分析
- 数值分析
- 数值分析
- 数值分析
- 数值分析
- Pig_7. 常用的数据分析方法 -- 待完善
- 关于python的基础知识10--数据分析和数值计算
- 预测数值型数据:回归源码分析(1)
- 预测数值型数据:回归 源码分析(2)
- 数值分析Matlab绘制三维数据曲面图
- 【数值分析】复化积分公式
- Pig_6. 数据摄取 & 输出 -- 多结构化数据 -- 待完善
- Pig_6. 数据摄取 & 输出 -- 结构化数据 -- 待完善
- Pig_6. 数据摄取 & 输出 -- 半结构化数据 -- 待完善
- 数据解析(待)
- C Runtime Library来历, API, MFC, ATL关系
- 利用java实现windows关机
- [Unity3d]控制物体的旋转以及缩放
- eclipse快捷键汇总
- 大小端模式
- 待分析数据数值化
- float 保存2位 转化为字符串
- 音乐播放
- PHP中PDO的基础应用实例
- oracle savepoint介绍
- Graphics->PathFillTypes
- 学习笔记—四元数与欧拉角之间的转换
- HashMap和HashTable的区别
- 揭秘EL表达式语言的基础总结