数据挖掘系列笔记(1):概述

来源:互联网 发布:网络礼仪的内容 编辑:程序博客网 时间:2024/05/16 07:56

1. 什么是数据挖掘?

数据挖掘是从已知的数据集合中发现各种模型、概要和导出值的过程。通俗地说,数据挖掘就是要从大量的数据中寻找有价值的、非同寻常的新信息。它的两个目标是预测和描述。预测是从已有的数据中推导出模型,从而对未来的情况进行预测。而描述则是从已知数据中找出可为人类理解的数据模式,对数据进行解释。

2. 数据挖掘与传统的技术有和不同?

一种传统的应用是使用了”首要原则模型”(first principle models)来描述物理、生物以及社会系统等,再使用模型来建立应用,解决实际中的各种问题,例如牛顿定律。而在数据挖掘中,没有事先存在的清晰准确的模型,需要从大量的数据中去推测模型、理解关系。

其他相关的传统技术包括数据库查询SQL和OLAP(OnLine Analytical Processing)。SQL是标准的数据库查询语言,通常用于获取确定性的结果。而数据挖掘的是属于一个探测性的过程,可能需要迭代和多种尝试才能获得较为准确的近似结果。OLAP是在给定关系假设的情况下,从数据库中查询,以验证假设的正确与否,所以实质上是一个推导过程,而其结果也是确定的。

3. 数据挖掘技术的应用。

数据挖掘是一个在大数据集上进行的自然行为,其目标是以整个市场数据来支持决策,在具有大数据的行业,包括零售、银行、制造、电信、医疗、保险和运输等行业都可应用大数据技术。

4. 大数据所应用到的技术。

数据挖掘所用到的技术主要是统计学和机器学习技术。包括支持向量机、决策树、人工神经网络、遗传算法等。

0 0
原创粉丝点击