数据挖掘里面机器学习算法的讲解2

来源:互联网 发布:网页过滤软件 编辑:程序博客网 时间:2024/06/05 02:04

数据挖掘原理与实战)视频
决策树:划分原则,是当前哪个属性是最大的,信息增益率。过程比较清晰。最大的优点自学习。
决策树的分类
没有办法划分,或者百分百划分,也可以控制几层,才会停止。防止过度拟合,到某个程度就停止。
对比逻辑回归。
优点:健壮性好。处理非线性。
缺点:类别太多,错误可能会增加比较快。  只是根据一个字段来分类。泛化能力差(容易过度拟合)。
逻辑回归
效果,就用实际数据就好了。
对比决策树:
优点:泛化能力较好(训练集和测试集的准确率差不多),精准高。能精确控制用户数量。
缺点:数据要求高,多重共线问题,不能处理复杂用户特征。
神经网络
支持向量机(用的比较多):核心就是核函数。小样本里面很好,
文本分类,图像分类,生物序列都比较好。
贝叶斯分类
准确率不高,
k近邻:k一定是奇数,错误率很高的。K越大,就越接近贝叶斯的错误率。
数据分析入门

数据来源要客观,这个案例人不仅仅是这几个属性,猪也一样。也不是科学方法。而且结论能解释。小例子没有结论解释性。所以不能算是数据分析,要从业务思维思考问题。不能分析出结果,就和随机结论一样了。数据分析,是严谨的分析过程。
用业务的思维去使用技术,业务为导向。

想清楚做什么,能否做,怎么做。怎么做正确,数据正确,方法正确。结论,有图,有结论。
这里有一个案例
电信公司,给业绩好的部门发展酬金,所以为了这个业绩,为了这个酬金,就有部门自己购买这些卡的现象。用数据挖掘来分析,违规操作。
他有什么样的特征和业务表现,有什么样的数据,有什么指标反映。
发展集中,拨打号码统一,通信行为集中,基站使用少等。
数据来源
调研,人工输入,设备采集,这种直接获取。
文档,网络上这些,就是简介获取。
多选型的题目如何编码:
需要多少的样本量。
抽样方法
概率抽样:完全随机,分层抽样,整群抽样,等距抽样,
非概率抽样:依靠研究人员的经验。
中心极限定理。样本均值的方差等于总体方差的1/N.
点估计。就是用样本的统计量对总体的未知参数的估计。最小二乘,贝叶斯等。
区间估计。估计区间,置信度和置信限。
样本的代表性。就是抽样的方法选择。
标准差,表示差异度。

正态分布的面积比例。
样本容量大小怎么确定。(课时7,40分钟位置)。
我毛华望QQ849886241,个人博客http://blog.csdn.net/my_share
《数据挖掘学习视频》
7数据预处理
    精准度,完整度,一致性,合乎时机,可信度,附加价值,可访问性。来评论数据质量。
数据清理:空缺,噪声,识别孤立点。
数据集成:数据立方体。
数据变换:规范化。
数据归约:书籍集变小,还不损失信息。
数据离散化 :
空缺值处理:直接忽略(大量空缺),人工(工作量大),全局变量就是null,平均值,bayesian方法,决策树,机器学习方法推断
噪声:分箱,聚类,回归和人工。
8数据集成和变换
模式集成和数据集成。
数据集成的时候,就是多个数据源整合成一个的问题。
实体识别,就是匹配来自不同数据源的实体。比如说,有人用ID有人用NO。来表示客户的标号。但是在合并的时候,意思是一样的。比如说,10美元,也有10人民币。都可能只用10.
也有冗余数据。比如说,一个数据库用年薪,一个数据库用月薪,其实是一个,你却用了2个。
相关性分析有时候可以消除冗余。相关越大,过大就可能是冗余。
冗余:也可能由多个数据库字段表示。比如说月销量和季度销量。
数据变换:平滑是用来处理噪点。汇总,概化就是分层向上汇报比如从村---镇,可以减少数据。规范化,归一化。要不然就是从-1到1.统一到一个合适的空间。方便计算。
数据归约:目的就是减少挖掘时间。缩小海量数据就是数据归约,但是不能减少信息量。数据立方体就会数据金字塔是一样的。维度归约(不相干属性),数据压缩(算法压缩),数值归约,离散化。但是要求归约的时间不能太长。
维归约:较少属性和维度,启发式方法,逐步向前选择,逐步向后删除,判定归纳树。
比如:逐步向前选择,由空属性集,每次添加一个最好的属性进来。
数据压缩:小波变换和主成分分析。
数值归约:通过线性回归,多元回归,直方图,聚类,选样减少数据量。比如说,数据是5,10,15这样类型的数据,就可以改变为1,2,3这样就较少数据量了。聚类呢?比如说数据1,2,3,3,4,34,37,38,可以这样,01,02,03,03,04,14,17,18前面的一代表30,就可以压缩了。
选样:抽样定理,随机抽取。分成选样。聚类选样。
9分类数据概念分成
离散化,比如说,数据是1,1.02,9,19,我们可以把1.02就可以变成1.也可以变成段落,比如说,把收入的具体数据,变成年薪10万以内的,超过10万的,15万的。就把具体数据变成很宽的数据。
概念分成,就是通过属性,来寻找更合适的属性,比如说合并。或者生成更合适的属性。减少属性就可以可能减少挖掘时间。
10,数据挖掘原语
百分之一就已经很具有代表性的。
置信度和支持度有强相关。支持度和置信度都需要有界限。
11,数据库查询语言
    主要是数据库查询语言DMQL。因为大部分都是在数据库中完成的。所有需要了解这些。
12,制定数据挖掘任务
13,面向属性的归纳算法
描述性挖掘和预测性挖掘。
14,概念描述的属性相关分析
        防止属性的选取不正确,所以需要属性相关分析。模糊理论,粗糙理论。信息增益。
        如果相关性越强,就越没有意义。如果百分百相关,那就说这个属性可以被其他属性推倒出来。
 15,类比较描述的量化分析规则
        类比较性挖掘,
  16,概念描述
        度量中心趋势,算数平均数,中位数(不过是最耗用时间的做法),模(频率最高的数据)也很耗时间。中位数(最大值和最小的平均),百分位数是正态分布的90%的区域,就是90%位数,倾斜度。
倾斜度,就是中位数和两个位数叫IQR,如果超过1.5倍的IQR,认为是孤立点。
        盒图,和股市交易图差不多。
离散度量,方差,
        直方图,分位数图,QQ图,散步图。
        增量挖掘和并行挖掘。
17,关联规则
        关系数据库,频繁出现模式。比如,适合捆绑销售。
        根据关联规则促销。支持度和置信度。
        apriori算法。
18,apriori 算法与FP树。找出大型数据库的简单的关联规则。
19,多维关联规则      
             支持度设置,高了,很多有用的信息消失了。如果低了,太多无用的东西都进来了。所以用递减支持度,或者是多支持度自动计算,来对比结果(耗用时间多了)。
            受控层交叉单项过滤策略,是为了搜索合适的支持度。
            冗余多层关联规则,就是父辈和子辈的置信度一样,那就是冗余的。
20,关联规则的元规则指导挖掘
           关联规则聚类系统,
           强关联规则,有时候你发现强关联规则。比如说,买电影票和看新闻的相关性。数据上相关性很强。可是单项比较,就是买电影票的人或者看新闻的人就是多。其实是无关的。因为最近有大片上映,也有一个大新闻,所以有时候是无相关的,也可能同时发生。
            这里面讲了集中约束方法,避免关联进入死胡同。
21,分类和预测
        建立模型--用模型分类---
        准确率,速度,健壮,伸缩,可解读。
        判定树归纳。
        停止条件。
22,判定归纳树
         贝叶斯,神经网络,回归一种预测算法,
23,聚类分析
        伸缩性,不同数据,任意形状,噪声,高纬度,约束,可解释。
        相异度矩阵,来表征差别。
 25,电子商务与数据挖掘
       内存装不下,是大数据的表现。    通过相关性捆绑销售,电子商务网站结构,   
        网络爬虫,搜索引擎就是通过这个收集网站的。






1 0
原创粉丝点击