数据挖掘——基础篇
来源:互联网 发布:portraiture mac 编辑:程序博客网 时间:2024/06/05 03:26
(写于December 4th, 2012)
初涉数据挖掘,算是对于数据数据挖掘的一些基础性理解。
什么是数据挖掘?
数据挖掘是数据库中知识发现(knowledgeDiscovery inDatabase,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。PS:我认为就是从海量的数据中分析处对我们有用的数据,然后这个分析的过程就是所谓的数据挖掘。
数据挖掘需要解决的问题:
在面临新数据集带来的问题时,传统的数据分心级数常常遇到实际困难,具体问题有:可伸缩,高纬性,异种数据和复杂数据,数据的有权与分布,传统的分析。(数据挖掘和传统数据分析方法的区别:1.数据挖掘所面对的数据和以前面对的数据有着显著的区别。首先,现在的数据源更加海量了,其次,现在的数据可能不是结构化数据,什么是结构化数据?即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,而非结构化数据是指,数据库二维逻辑表来表现的数据即称为非结构化数据,比如xml,html,图像,视频,文本等。2.分析方法不同,传统的数据分析方法是先给定一个假设,然后我们通过分析数据去验证这个假设,而数据挖掘并没有假设,相反,它是发现假设的。 )
数据挖掘任务:
两大类:
预测任务:根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量或因变量,而用来作预测的属性称为说明变量或自变量。
描述任务:导出概括数据中潜在联系的模式。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证。
四种主要数据挖掘任务:
预测建模:以说吗变量函数的方式为目标变量建立模型。有两类预测建模任务:分类,用于预测离散的目标变量,分析一个已知的类别来建立一个模型,通过这个模型我们可以判断出类别未知的类的类别;回归,用于预测连续的目标变量。
关联分析:用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。
聚类分析:把一组数据分成不同的簇,每簇中数据相似而不同簇间的数据则距离较远。(与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。)
异常检测:识别其特征显著不同于其他数据的观测值(异常点或离群点)。
- 数据挖掘——基础篇
- 数据挖掘学习篇——数据挖掘的概念
- 大嘴巴漫谈数据挖掘基础篇-数据挖掘简介
- 数据挖掘学习笔记-入门基础篇
- 数据挖掘学习-准备篇-python基础
- 数据挖掘基础一
- 《数据挖掘》基础
- 数据挖掘 基础算法
- 数据挖掘基础:属性
- 数据挖掘基础
- 数据挖掘-1-基础
- 【数据挖掘】基础
- 1 数据挖掘基础
- 数据挖掘基础
- 学习大数据第二天:数据挖掘的基础方法——最小二乘法
- 数据挖掘——数据分析挖掘体系
- 数据挖掘——尝鲜
- 数据挖掘--统计基础概念
- 计算机存储单位
- jquery可编辑表格
- SELECT INTO 和 INSERT INTO SELECT 两种表复制语句
- $_REQUEST与$_POST、$_GET的区别和特点
- 递归练习--求1*1+2*2+...+n*n
- 数据挖掘——基础篇
- windows8.1 高级启动
- [Java] 数组-01 入门
- java实现一个录音播放的功能
- 线程
- WEB跨站脚本和cookie(httponly-cookie设置)安全了解
- 在VMware中安装Ubuntu进不了图形界面的解决方法
- js实现图片切换效果图
- 经典算法在几个开源项目中的应用