数据挖掘技术笔记

来源:互联网 发布:js array prototype 编辑:程序博客网 时间:2024/06/06 01:54

1 什么是数据挖掘?

呵呵,虽然是理论上的一些笔记但可以好好看看(建议!!!)

数据挖掘在大型数据存储库中,自动地发现有用信息的过程。我的理解就是:从中找到利于你感兴趣的主题,如果你是一个销售人员,当然你会毫不犹豫去提高你的销售量,但怎么去提高呢,假设你手中有很多很多的图表,统计数据,你该怎么做呢?这时你可以想想你感兴趣的主题或许就在这些数据里吧,对,确实,你是个聪明人,那你会怎么做呢?呵呵,数据挖掘或许会帮你找到其中数据之间的关联,结合你自己的工作经验,分析分析一下,或许你会得出结论-这就是简单的一个例子。你有了一个简单的想法了吧,继续我们的主题->呵呵,不好意思,还是理论

数据挖掘技术用来探查大型数据库,发现未知的有用模式(可以理解你感兴趣的主题)并且在一定程度上可以预测未来的预期情况(起个指导意义)例如,预测一位新的顾客是否会在一家百货公司消费100美元以上。

你需要注意并非所有的信息发现都对你有用(其实你可以猜到)当然也不是数据挖掘的任务了



首先介绍一下什么是数据,或许你有那个想法?

数据类型:两类(定量和定性)

数据的质量:(很重要,很大程度上可以改进分析结果的质量,通常必须解决的数据质量问题包括存在噪声和离群点,数据遗漏,不一致或重复,数据有偏差或者不能代表它应该描述的现象或总体)

是数据挖掘的预处理步骤:一般情况下,原始数据必须加以处理才能适合与分析,处理一方面要提高数据的质量,另一方面让数据更好的适应特定的数据娃聚技术或者工具,如:可能需要将连续属性(如长度)转化成具有离散的分类值的属性(短,中,长)

根据数据联系分析数据:

数据分析的一种方法是找出数据对象之间的联系,之后使用这些联系而不是数据本身来进行其余分析,例如,我们可以计算对象之间的相似度或距离,然后根据根据这种相似度或距离进行分析-聚类,分类,或异常检测

属性与度量:

属性(Attribute)是对象的性质或特征,它因对象而异,或随时间而变化。

例如眼球(褐色,黑色,绿色,蓝色等)

测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)

例如温度和摄氏温度和华氏温度的转化关系

属性的不同类型:
数值的如下性质(操作)常常用来描述属性

  (1)相似性 =或!=

  (2)序 <,><=,>=

  (3)加法 +或-

  (4)乘法 *,/

即我们可以定义四种属性类型,标称(nominal)  序数(ordinal)  区间(interval)和比率(ratio);



0 0
原创粉丝点击