数据挖掘:属性
来源:互联网 发布:ppt制作软件 编辑:程序博客网 时间:2024/05/16 15:46
数据对数据挖掘是至关重要的,只有充分认识数据才能选择合适的挖掘方法,进而得到不错的挖掘效果。
1、属性与度量[详细内容参考《introduction to data mining》]
属性是对象的特性,它因对象而异,或随时间而变化。测量标度是将数值与符号值与对象属性相关联的规则。属性与属性值是不一样的,例如用户的ID属性用整数表示,ID属性是没有加减操作的,而ID属性值是可以加减的,但这种操作是没有意义的。例如user1的ID1=1,user2的ID2=2,ID1+ID2=3是没意义的。
属性可以分为四类:标称、序数、区间和比率。如下图所示:
其中上图“描述”列中的符号说明如下图:
属性是可以变换的,Smith Stevens定义了属性的层次变换,如下图所示:
2、属性序列
在数据集S中,有每个用户七天活跃记录:a1,a2,a3,a4,a5,a6,a7。如果用户第i天活跃则ai=1,否则ai=0.任务是根据这七天的用户活跃记录预测用户第八天是否活跃。可以看出特征就是七个字段,每个字段是0或1.但是从问题描述中这七个字段可能隐藏了如下信息:
(1)这七个字段是具有时效性的。用户第七天是否活跃比用户第一天是否活跃对预测更重要。
(2)这七个字段具有连续性。具有模式(a5=1,a6=1,a7=1)的用户比具有模式(a5=0,a6=0,a7=1)的用户在第八天活跃的可能性更大。
1 0
- 数据挖掘基础:属性
- 数据挖掘:属性
- Weka数据挖掘——选择属性
- 数据挖掘中基本概念--数据类型的属性与度量
- 数据挖掘之关联分析四(连续属性处理)
- kaggle数据挖掘竞赛初步--Titanic<派生属性&维归约>
- 数据挖掘中基本概念--数据类型的属性与度量
- 数据挖掘之关联分析四(连续属性处理)
- 数据挖掘--序列挖掘
- 数据挖掘--文本挖掘
- 数据挖掘
- 数据挖掘
- 数据挖掘
- 数据挖掘
- 数据挖掘
- 数据挖掘
- 数据挖掘
- 数据挖掘
- 软工视频总结(三)
- Alpha-beta 算法
- objective-c数组的四种遍历方法总结
- ASP.NET MVC - Area的路由映射(使用NampSpace)
- 旋转角度和欧拉角js
- 数据挖掘:属性
- 超链接传递中文乱码问题
- Java使用uploadify文件上传出现HTTP404
- hadoop一些入门小知识点儿(命令)
- 山寨新闻网之使用Python爬取网易科技
- LeetCode-Q1-TwoSum
- UML学习(一)-----用例图
- windows核心编程-windows完整性机制
- Hibernate