数据挖掘学习之路—1、相关概念

来源:互联网 发布:文字排版软件下载 编辑:程序博客网 时间:2024/04/28 03:03

      在同济读研期间,无意间选择了数据仓库和数据挖掘作为研究方向,从此走上了漫漫BI之路。

      研究生毕业以后,抵制了外企的诱惑(因为无法做BI相关的专业工作),加入了上海电力下属的IT公司,从事电力营销数据仓库的建设,真正将知识转化成生产力,自己也亲身经历如何实施大型数据仓库,此后跳槽另一家民企,接触了移动经营分析系统,对于数据仓库、数据挖掘的相关技术、工具等有了深入的了解,当初之所以情归BI,更多的不是看重技术,而是看重它是和商业紧密相连的,如何帮助企业预测未来的收入、利润,降低库存成本,挖掘潜在客户价值,减少客户流失率等BI应用,现在真正做的好的企业是凤毛麟角,包括不缺钱的国企,我将在blog分享数据挖掘的相关知识,BI 的学习路漫漫,吾将上下而求索!

     今天内容主要是数据挖掘的相关概念

     1、数据挖掘的定义

      简单来说,数据挖掘是对信息系统积累的大量历史数据,通过相关算法进行探索和分析的过程,目的是发现数据中隐藏的有用的模式和规律。目前数据挖掘应用普遍是借助专业的数据挖掘工具来实现,市场上主流的商用工具是SAS、SPSS,开源的工具是WEKA等。

     2、数据挖掘的作用

     1)分类

      首先对需要区分的类别加以定义,即建立分类模型,然后应用模型对未分类数据进行分类。例如,将信用卡申请按低、中和高风险分类;将顾客按事先确定的顾客类型分组,目的是将数据分配在某一预先定义的类别。

      适用算法:决策树和最近邻技术都能很好的用于分类。

                          神经网络和链接分析在某些情况下对分类有用。

     2)估计

     分类处理的是离散的结果,如“是”与“不是”,估计处理的是连续的结果,输入一组数据,估计给出一个未知连续变量的值,如收入、高度或者信用卡的余额。

 信用卡中心可以将客户分为低、中和高风险,也可以建立模型,对持卡人给以“风险评估分”,得分可以从1至100,表示持卡人的风险级别。

     估计还可以应用如估计一个家庭的孩子数目、估计客户的寿命值等。

    适用算法:回归模型和神经网络

    3)预测

    任何的预测都可以被认为是分类或估计,不同之处在于你强调的是什么,预测关注的是未来行为或未来值,检验准确度的惟一方法是等待和观察。     应用举例如下:

     预测哪些客户在6个月之内可能离开;

     预测哪些客户会预定增值服务;

    所有用于分类和估计的技术均可稍加修改后用于预测。

    分类、估计和预测均属于有指导或定向数据挖掘,目的是发现特定目标变量的值。

    4)关联

     关联是确定事物之间的相关性,确定哪些事物会同时出现,典型应用是购物篮分析。

     关联也可以被用来分析交叉购物的机会,以设计吸引人的产品或服务包。

    5)聚类

    聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中,它没有事先确定好的类别,也没有样本,记录按照自身的特征相似性聚集在不同的类别。

    聚类通常作为一些其它形式的数据挖掘或建模的前奏。

    6)描述与可视化

    对数据准确的描述,如“网上购物的数量女性要大于男性”

    数据可视化是通过图形化的手段描述数据。

    3、数据挖掘在市场营销中的应用

    通过分析客户详细的行为数据,数据挖掘可以对客户进行精确营销,剔除非客户群体,节省市场营销的费用,抓住最有价值的客户,避免核心客户的流失,此外,数据挖掘还可以帮助企业识别潜在客户群体,针对不同的类别采用差异化的市场策略,提升收入。

   4、数据挖掘在客户关系管理中的应用

   通过应用数据挖掘方法,企业可以将客户数据库的大量数据转变成描述顾客特征的图像,了解客户的行为特征,研究客户的生存周期,在不用的周期如何改进客户关系。

   5、数据挖掘的四种方法

   1)购买与企业的商业问题配套的评分机制,如信用评估系统;

   2)购买数据挖掘软件这类整体解决方案;

   3)针对特定的问题,请专家完成预测模型的建立;

   4)组织内部掌握数据挖掘技能。

 

       

     

原创粉丝点击