数据挖掘学习之路—1、相关概念
来源:互联网 发布:文字排版软件下载 编辑:程序博客网 时间:2024/04/28 03:03
在同济读研期间,无意间选择了数据仓库和数据挖掘作为研究方向,从此走上了漫漫BI之路。
研究生毕业以后,抵制了外企的诱惑(因为无法做BI相关的专业工作),加入了上海电力下属的IT公司,从事电力营销数据仓库的建设,真正将知识转化成生产力,自己也亲身经历如何实施大型数据仓库,此后跳槽另一家民企,接触了移动经营分析系统,对于数据仓库、数据挖掘的相关技术、工具等有了深入的了解,当初之所以情归BI,更多的不是看重技术,而是看重它是和商业紧密相连的,如何帮助企业预测未来的收入、利润,降低库存成本,挖掘潜在客户价值,减少客户流失率等BI应用,现在真正做的好的企业是凤毛麟角,包括不缺钱的国企,我将在blog分享数据挖掘的相关知识,BI 的学习路漫漫,吾将上下而求索!
今天内容主要是数据挖掘的相关概念
1、数据挖掘的定义
简单来说,数据挖掘是对信息系统积累的大量历史数据,通过相关算法进行探索和分析的过程,目的是发现数据中隐藏的有用的模式和规律。目前数据挖掘应用普遍是借助专业的数据挖掘工具来实现,市场上主流的商用工具是SAS、SPSS,开源的工具是WEKA等。
2、数据挖掘的作用
1)分类
首先对需要区分的类别加以定义,即建立分类模型,然后应用模型对未分类数据进行分类。例如,将信用卡申请按低、中和高风险分类;将顾客按事先确定的顾客类型分组,目的是将数据分配在某一预先定义的类别。
适用算法:决策树和最近邻技术都能很好的用于分类。
神经网络和链接分析在某些情况下对分类有用。
2)估计
分类处理的是离散的结果,如“是”与“不是”,估计处理的是连续的结果,输入一组数据,估计给出一个未知连续变量的值,如收入、高度或者信用卡的余额。
信用卡中心可以将客户分为低、中和高风险,也可以建立模型,对持卡人给以“风险评估分”,得分可以从1至100,表示持卡人的风险级别。
估计还可以应用如估计一个家庭的孩子数目、估计客户的寿命值等。
适用算法:回归模型和神经网络
3)预测
任何的预测都可以被认为是分类或估计,不同之处在于你强调的是什么,预测关注的是未来行为或未来值,检验准确度的惟一方法是等待和观察。 应用举例如下:
预测哪些客户在6个月之内可能离开;
预测哪些客户会预定增值服务;
所有用于分类和估计的技术均可稍加修改后用于预测。
分类、估计和预测均属于有指导或定向数据挖掘,目的是发现特定目标变量的值。
4)关联
关联是确定事物之间的相关性,确定哪些事物会同时出现,典型应用是购物篮分析。
关联也可以被用来分析交叉购物的机会,以设计吸引人的产品或服务包。
5)聚类
聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中,它没有事先确定好的类别,也没有样本,记录按照自身的特征相似性聚集在不同的类别。
聚类通常作为一些其它形式的数据挖掘或建模的前奏。
6)描述与可视化
对数据准确的描述,如“网上购物的数量女性要大于男性”
数据可视化是通过图形化的手段描述数据。
3、数据挖掘在市场营销中的应用
通过分析客户详细的行为数据,数据挖掘可以对客户进行精确营销,剔除非客户群体,节省市场营销的费用,抓住最有价值的客户,避免核心客户的流失,此外,数据挖掘还可以帮助企业识别潜在客户群体,针对不同的类别采用差异化的市场策略,提升收入。
4、数据挖掘在客户关系管理中的应用
通过应用数据挖掘方法,企业可以将客户数据库的大量数据转变成描述顾客特征的图像,了解客户的行为特征,研究客户的生存周期,在不用的周期如何改进客户关系。
5、数据挖掘的四种方法
1)购买与企业的商业问题配套的评分机制,如信用评估系统;
2)购买数据挖掘软件这类整体解决方案;
3)针对特定的问题,请专家完成预测模型的建立;
4)组织内部掌握数据挖掘技能。
- 数据挖掘学习之路—1、相关概念
- 数据挖掘相关概念
- 数据挖掘学习篇——数据挖掘的概念
- 数据挖掘之基础概念
- 数据仓库与数据挖掘相关基础概念
- 统计学、人工智能、机器学习、数据挖掘的区别与联系之(1) 概念
- 【数据挖掘】关联挖掘算法+信息增益等相关概念
- 数据挖掘概念与技术学习笔记(1)
- 【数据挖掘概念与技术】学习笔记1-引论
- 《数据挖掘——概念和技术》笔记之概论
- 《数据挖掘概念与技术》学习笔记
- 《数据挖掘概念与技术》学习笔记 .
- 《数据挖掘概念与技术》学习笔记
- 数据挖掘概念与技术-学习笔记
- 数据挖掘之基础概念二
- R语言与数据挖掘学习笔记(1):数据挖掘相关包的介绍
- 数据挖掘笔记(1)-概念、数据准备
- 数据挖掘概念与技术——读书笔记(1)
- 基于jquery跨浏览器显示的file上传控件
- 事件驱动的模拟(event-driven-simulation)在排队中的运用
- Struts中实现分页
- 嵌入式系统的通讯协议:I2C通讯、SPI通讯、USB通讯、SDIO 通讯、I2S通讯、PCI通讯简介
- 解决Qt release版本找不到mingwm10.dll的问题
- 数据挖掘学习之路—1、相关概念
- linux-时间相关结构体和函数
- Windows 2008 server + IIS 7 设置身份模拟(ASP.NET impersonation)
- myeclipse安装svn插件
- Failed to create the Java Virtual Machine
- 用WPF+MongoDB开发房产信息收集器(1)
- 关于上拉和下拉电阻
- poj 2398 Toy Storage(判断点在多边形内,叉积)
- 用WPF+MongoDB开发房产信息收集器(2)——后台线程