数据挖掘学习【02】——数据

来源:互联网 发布:环境变量是啥 知乎 编辑:程序博客网 时间:2024/06/05 05:44

数据挖掘学习【02】——数据

【前言】这是数据挖掘学习系列文章的第二篇——数据,要想进行数据挖掘,必不可少的就是要对数据有深入的认识和了解,当然我在学习数据挖掘过程中第一步做的当然也是认识数据了。

一、数据挖掘的过程:

这里先补上前面一篇文章没有给出的数据挖掘过程图

二、数据:

1、数据的属性(整体认识):

【注】:这里的英文一定要记住,后面因为会看一些外文文献,经常会看到这些词语

2、数据的属性(详细介绍):

标称属性:标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看作是分类的或枚举的。

如:头发的颜色(黑色、棕色、淡黄色等)  职业(教室、程序员等) 这些都是可以使用数表示这些符号或名称的。如头发的颜色中,用0表示黑色,1表示棕色……)

 

二元属性(布尔属性):是标称属性的一种,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。

如:对吸烟患者的描述(抽烟或不抽烟)

 

序数属性:其可能的值之间具有有意义的序或秩评定,但是相继之间的差是未知的。

如:饮料量的多少(大、中、小)同样,序数属性可用数来表示。

 

这里注意:标称、二元和序数属性都是定性的。它们描述对象的特征,而不给出实际的大小或数量。这种定性属性的值通常是代表类别的词。即使使用整数代表了,这些整数也是不可测量的。

 

数值属性:是定量的,可度量的量,用整数或实数值表示。

        1、  区间标度(interval-scaled)属性

                用相等的单位尺度度量。如:温度

        2、  比率标度(ratio-scaled)属性

                具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。

 

离散属性与连续属性

       离散属性:具有有限或无线可数个值,可以用或不用整数表示。

三、数据的基本统计:

1、整体认识:

2、陌生的概念介绍:

众数:集合中出现最频繁的值。

中列数:数据集的最大和最小值的平均值

极差:最大值和最小值之差

分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。(中位数、四分位数、百分位数是最常使用的)

四分位极差IQR=Q3-Q1

五数概括、盒图与离群点

分布的五数概括由中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成。

盒图:体现了五数概括:

        >盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR

        >中位数用盒内的线标记

        >盒外的两条线延伸到最小和最大观测值

方差和标准差

0 0
原创粉丝点击