《大嘴巴漫谈数据挖掘》基础篇系列之二
来源:互联网 发布:草木知春不久归全诗 编辑:程序博客网 时间:2024/04/30 15:26
1.架构特征多形式
数据特征的展现和输出可以包括多种形式,一般会利用整合、汇总等方式来描述数据中的具体特点和性质,并且经常还会借助饼图、柱状图、数据立方体等表现手段来辅助输出。
同时,针对分类形式数据特征也可以用基于决策树的规则表达式来描述并区分。决策树是一个自上而下生成的树结构,分枝代表决策事件,叶子代表最终的类别标记结果。利用决策树容易将样本数据转化为分类规则,便于预测未知对象的类别标记。
2.数据立方展多维
数据立方体能够从多角度刻画数据,按照中心主题组织数据,存储方式从二维平面扩展到多维立体。在这里,具体的调研对象就是一个主题,其中的维可以看作是要记录的业务视角和观点。主题用事实来表示,事实则被认为是数据的度量,存放在由维度索引的立方体单元中,并通过洞察数据来发现其中的模式和规律,以便更好地辅助决策。
事实表和维表一般组成星型结构。事实表的每一条记录都将通过维表中的维度主键唯一对应。
数据立方体按照不同维度可以显示为不同的二维视图。在给定的一个维上进行切片操作后,得到若干子方。例如,选择年龄维进行切片,根据切片条件生成的子方如下所示:
切片条件1:年龄<=30,生成子方1。
切片条件2:年龄31-40,生成子方2。
切片条件3:年龄41-50,生成子方3。
切片条件4:年龄>=51,生成子方4。
数据立方体是面向主题的。主题对应于一个相对宏观的分析领域,比如在企业的运营管理中,如果分析企业内部销售部门的工作情况,这时销售就被看作成一个主题,一般会选取时间、地区、人员等作为维度,销售额作为事实构造数据立方体。
针对某一特定部门,按照主题从较高层次将数据归类,辅助集成并汇总不同部门之间的大量数据。通常,基于各个主题的数据存储在各自独立的领域空间里,且互不交叉。
- 《大嘴巴漫谈数据挖掘》基础篇系列之二
- 大嘴巴漫谈数据挖掘基础篇-数据挖掘简介
- 《大嘴巴漫谈数据挖掘(全彩)》
- 《大嘴巴漫谈数据挖掘(全彩)》
- 数据挖掘系列之二:数据挖掘概述
- 数据挖掘之基础概念二
- 什么是大数据?漫谈大数据仓库与挖掘系统
- 什么是大数据?漫谈大数据仓库与挖掘系统
- 什么是大数据?漫谈大数据仓库与挖掘系统
- 大嘴巴漫谈笔记-抽样分布与假设检验
- 数据挖掘十大经典算法之二:K-means
- 大嘴巴
- 漫谈的数据挖掘
- 【十大经典数据挖掘算法】系列
- 什么是Hadoop(大数据基础系列二)
- Hadoop大数据零基础高端实战培训系列配文本挖掘项目
- Hadoop大数据零基础高端实战培训系列配文本挖掘项目
- 大数据及人工智能基础系列3 文本挖掘的TF-IDF计算
- SSH框架应用之《商城开发》1-如何根据指定条件从数据库中取出数据
- top 命令详解
- Maximal Rectangle
- Windows 环境下添加 ORA_DBA用户组
- fatal error C1083: Cannot open include file: 'afxcontrolbars.h': No such file or directory
- 《大嘴巴漫谈数据挖掘》基础篇系列之二
- Windows, linux 系统时间时区设置
- Objective-C基础之@class与#import
- HDU - 2294 Pendant (DP滚动数组降维+矩阵快速幂)
- Remove Duplicates from Sorted List II
- Lua学习之--函数,变长参数,closure(闭包)及select的一些特性
- Android webview的使用
- Hadoop HBase 配置 安装 Snappy 终极教程
- 一个关于 UIPickerView 的 bug