数据挖掘基本知识

来源：互联网发布：js获取jsonarray长度编辑：程序博客网时间：2024/05/16 07:18

背景

数据挖掘解决的商业问题

客户流失分析
交叉销售
欺诈检测
风险管理
客户细分
广告定位
销售预测

数据挖掘的任务

分类

基于一个可预测属性把事例分成多个类别。有目标的数据挖掘算法称为有监督的算法。典型的分类算法有决策树算法、神经网络算法和贝叶斯算法。

例子：是否上大学事例重要属性：IQ、性别、父母收入、父母教育程度通过这些属性与上大学构建模型，通过这个模型就能预测下一个事例是否能上大学。现在所谓的大数据就是事例比较多，可能每天都是上亿的数据流量，还有关联属性多，可能多达上100个属性，通过海量数据分析得出比较可靠分类数据。

分类任务建立模型时，需要知道在数据集中输入事例的类别属性的值，这就需要海量数据来支撑。

聚类

基于一组属性对事例进行分组。有点像sql 中group by 统计函数。聚类是一种无监督的数据挖掘任务，没有一个属性用于指导模型的构建过程。

例子：客户数据集保护年龄和输入两个属性，基于两个属性，聚类算法把数据分为3类。1.低收入的年轻客户，2.高收入的中年客户，3.较低的年老客户。

关联

主要目标：找出频繁项集和管理规则。

例子：购物篮分析，分析支持度2%的购物车中的项，频繁项集可能：（产品=“百事可乐”，产品=“炸土豆条”，产品=“果汁”）。

关联规则：带概率的A，B=>C，如果一个客户买百事可乐和炸土豆条，很有可能会买果汁。

回归

回归任务类似于分类任务，最大区别是在回归任务中可预测属性是连续的。线性回归和逻辑回归是最常用的回归分析方法。还有回归树和神经网络。

回归任务解决：例如，基于债券的面值、发行方式和发行数量，可以预测它的赎回率，或者基于温度、大气压力和湿度、可以预测风速。

说的太玄乎，实际生活中还没找到好的例子。

预测

使用时间序列数据集，连续的观测值通过趋势分析、周期性分析和噪声过滤。

序列分析

用于发现离散序列中的模式。序列和关联数据有点相似，都包含一个项集或一组状态。区别在于：序列模型分析的是状态的转移，关联模型认为在客户购物车中的每个商品都是平等的和相互独立的。

通过序列模型可知，先买扬声器再买电脑和先买电脑再买扬声器是2个不同的序列。主要用于两种应用：Web日志分析和DNA分析。

偏差分析

为找出一些特殊的事例，这些事例的行为与其他事例有明显的不同。也称孤立点检测，用来检测与前面观察的行为有重大改变的行为。

最常见的应用：信用卡欺诈行为检测，网络入侵检测，劣质产品分析。

以前在做人员分析项目时都用到这些方法，当时没有细想和总结更没有所谓的算法，更多的时候跟着客户的业务模型亦步亦趋。

例如：同时上下机、特殊规律上网或地点、关联身份、关键词提取，一旦模型定下后后续的业务只是在这些模型下不断增加不同维度的数据。

算法

贝叶斯算法

似然估计计算，概率，有点复杂。

参考：http://www.cnblogs.com/skyme/p/3564391.html

决策树算法

信息熵，回归，分类，关联

参考：http://blog.csdn.net/baimafujinji/article/details/51724371

时序算法

自动回归树，快速傅立叶变换，标准差

参考：http://www.cnblogs.com/tonglin0325/p/6218478.html

聚类算法

硬聚类，软聚类，K-means算法和期望最大化算法，离散聚类，可伸缩聚类，聚类预测

参考：http://www.dataguru.cn/article-3408-1.html

序列聚类算法

马尔可夫链，状态转换矩阵

参考：http://wiki.mbalib.com/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE%E6%A8%A1%E5%9E%8B

关联规则算法

priori算法，项集，支持度，概率，置信度，重要性

参考：http://blog.csdn.net/androidlushangderen/article/details/43059211

神经网络算法

太他妈复杂

参考：http://www.cnblogs.com/buptzym/p/5437973.html

以上算法太复杂，需要很好的数学功底，但是原理性的东西或者解决问题的应用场景可以了解下，可以给我们的生活带来不一样的乐趣。

阅读全文

0 0