《大嘴巴漫谈数据挖掘》基础篇系列之二

来源:互联网 发布:草木知春不久归全诗 编辑:程序博客网 时间:2024/04/30 15:26

1.架构特征多形式


       数据特征的展现和输出可以包括多种形式,一般会利用整合、汇总等方式来描述数据中的具体特点和性质,并且经常还会借助饼图、柱状图、数据立方体等表现手段来辅助输出。

      同时,针对分类形式数据特征也可以用基于决策树的规则表达式来描述并区分。决策树是一个自上而下生成的树结构,分枝代表决策事件,叶子代表最终的类别标记结果。利用决策树容易将样本数据转化为分类规则,便于预测未知对象的类别标记。


2.数据立方展多维


       数据立方体能够从多角度刻画数据,按照中心主题组织数据,存储方式从二维平面扩展到多维立体。在这里,具体的调研对象就是一个主题,其中的维可以看作是要记录的业务视角和观点。主题用事实来表示,事实则被认为是数据的度量,存放在由维度索引的立方体单元中,并通过洞察数据来发现其中的模式和规律,以便更好地辅助决策。

      事实表和维表一般组成星型结构。事实表的每一条记录都将通过维表中的维度主键唯一对应。




       数据立方体按照不同维度可以显示为不同的二维视图。在给定的一个维上进行切片操作后,得到若干子方。例如,选择年龄维进行切片,根据切片条件生成的子方如下所示:

      切片条件1:年龄<=30,生成子方1

      切片条件2:年龄31-40,生成子方2

      切片条件3:年龄41-50,生成子方3

      切片条件4:年龄>=51,生成子方4




       数据立方体是面向主题的。主题对应于一个相对宏观的分析领域,比如在企业的运营管理中,如果分析企业内部销售部门的工作情况,这时销售就被看作成一个主题,一般会选取时间、地区、人员等作为维度,销售额作为事实构造数据立方体。

      针对某一特定部门,按照主题从较高层次将数据归类,辅助集成并汇总不同部门之间的大量数据。通常,基于各个主题的数据存储在各自独立的领域空间里,且互不交叉。



0 0
原创粉丝点击