数据挖掘学习【02】——数据
来源:互联网 发布:环境变量是啥 知乎 编辑:程序博客网 时间:2024/06/05 05:44
数据挖掘学习【02】——数据
【前言】这是数据挖掘学习系列文章的第二篇——数据,要想进行数据挖掘,必不可少的就是要对数据有深入的认识和了解,当然我在学习数据挖掘过程中第一步做的当然也是认识数据了。
一、数据挖掘的过程:
这里先补上前面一篇文章没有给出的数据挖掘过程图
二、数据:
1、数据的属性(整体认识):
【注】:这里的英文一定要记住,后面因为会看一些外文文献,经常会看到这些词语
2、数据的属性(详细介绍):
标称属性:标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看作是分类的或枚举的。
如:头发的颜色(黑色、棕色、淡黄色等) 职业(教室、程序员等) 这些都是可以使用数表示这些符号或名称的。如头发的颜色中,用0表示黑色,1表示棕色……)
二元属性(布尔属性):是标称属性的一种,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。
如:对吸烟患者的描述(抽烟或不抽烟)
序数属性:其可能的值之间具有有意义的序或秩评定,但是相继之间的差是未知的。
如:饮料量的多少(大、中、小)同样,序数属性可用数来表示。
这里注意:标称、二元和序数属性都是定性的。它们描述对象的特征,而不给出实际的大小或数量。这种定性属性的值通常是代表类别的词。即使使用整数代表了,这些整数也是不可测量的。
数值属性:是定量的,可度量的量,用整数或实数值表示。
1、 区间标度(interval-scaled)属性
用相等的单位尺度度量。如:温度
2、 比率标度(ratio-scaled)属性
具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。
离散属性与连续属性:
离散属性:具有有限或无线可数个值,可以用或不用整数表示。
三、数据的基本统计:
1、整体认识:
2、陌生的概念介绍:
众数:集合中出现最频繁的值。
中列数:数据集的最大和最小值的平均值
极差:最大值和最小值之差
分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。(中位数、四分位数、百分位数是最常使用的)
四分位极差:IQR=Q3-Q1
五数概括、盒图与离群点:
分布的五数概括由中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成。
盒图:体现了五数概括:
>盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
>中位数用盒内的线标记
>盒外的两条线延伸到最小和最大观测值
方差和标准差
- 数据挖掘学习【02】——数据
- 数据挖掘学习篇——数据挖掘的概念
- 数据挖掘学习【01】——基础理论
- 《数据挖掘》学习笔记——认识数据(1)
- 《数据挖掘》学习笔记——认识数据(2)
- 大数据学习——数据挖掘理论基础
- 数据科学家——数据挖掘与机器学习
- 宝贵数据集——用于数据挖掘、机器学习、文本挖掘
- 数据挖掘python学习——《写给程序员的数据挖掘实践指南》第2章
- 数据挖掘python学习——《写给程序员的数据挖掘实践指南》第3章
- 开始学习数据挖掘
- 数据挖掘基本知识学习
- 数据挖掘学习网站
- 学习数据挖掘
- 数据挖掘学习顺序
- 数据挖掘学习
- 数据挖掘&机器学习
- 数据挖掘学习资源
- iOS系统自带的按钮与标签对照
- Ant Problem: failed to create task or type foreach 问题
- android LockPattern手势解锁
- 齐次坐标的意义
- 浅谈C++多态性-----重载,覆盖,隐藏
- 数据挖掘学习【02】——数据
- net程序员应该掌握的常用类库
- android webView加载页面时显示出全部网页内容
- Java环境变量+Tomcat+测试页
- opencv编译
- C++的调试方法
- 设计模式学习日志二:工厂方法模式 (原文转载)
- 女孩乱穿马路撞电动车致车主摔残 被索赔15万
- DELPHI里byte型数组取值与比较