数据分析师面试题攻略

来源:互联网 发布:淘宝老年男冬装 编辑:程序博客网 时间:2024/04/27 22:00

计算平均有哪些指标,各有哪些优缺点
数值平均数有算术平均数、调和平均数、几何平均数等形式 位置平均数有众数、中位数、四分位数等形式 前三种是根据各单位标志值计算的,故称为数值平均值,后三种是根据标志值所处的.  


相关分析和回归分析有什么关系 
回归分析与相关分析的联系:研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。
回归分析和相关分析都是研究变量间关系的统计学课题,它们的差别主要是:
1、在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;
2、相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的;
3、相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y的影响大小,还可以由回归方程进行数量上的预测和控制。

给出一个概率分布函数,求极大似然估计 
 求极大似然函数估计值的一般步骤:
 (1) 写出似然函数;(2) 对似然函数取对数,并整理;(3) 求导数 ;(4) 解似然方程
 极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。当然极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。
 例3.7.3 已知总体X服从泊松分布
          (λ>0,  x=0,1,…) 
(x1,x2,…,xn)是从总体X中抽取的一个样本的观测值,试求参数λ的极大似然估计.
 解.参数λ的似然函数为   
 两边取对数:      
 上式对λ求导,并令其为0,即
 从而得     
 即样本均值是参数λ的极大似然估计.

决策树和神经网络在数据预处理过程中用到哪些方法?
神经网络方法。即通过大量神经元构成的网络来实现自适应非线性动态系统,并使其具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能的方法;在空间数据挖掘中可用来进行分类和聚类知识以及特征的挖掘。 
决策树方法。即根据不同的特征,以树型结构表示分类或决策集合,进而产生规则和发现规律的方法。采用决策树方法进行空间数据挖掘的基本步骤如下:首先利用训练空间实体集生成测试函数;其次根据不同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。 

数据挖掘的应用步骤: 
      数据挖掘的步骤    数据挖掘是通过对数据的收集整理、分析、建模和效果跟踪完成对知识的发现和应用,是一个不断反复的过程,其基本步骤包括以下几步。

  (1)确定分析和预测目标  在进行数据挖掘前,首先要明确业务目标,即通过数据挖掘解决什么样的问题,达到什么目的。 

   (2)了解数据    对待挖掘的数据要进行初步了解。如数据从哪儿来,所选的数据表哪些字段是必要的,如何描述这些数据等。对数据的初步了解可以帮助分析数据的可用性和实用性,减少返工造成的资源浪费。

    (3)数据准备    数据准备是指对已确定的基本数据进行必要的转换、清理、填补及合并。数据准备工作比较繁锁,但非常重要,如果数据里的噪声太多,就会影响建立模型的准确度,数据越完整、越准确,在此基础上发掘的数据规律就越具有较高的可信度,能更好地实现数据挖掘的目标,否则从垃圾数据里再怎么挖掘,出来的也只能是垃圾。 

   (4)数据相关性前期探索    有些数据挖掘在定性和数据分类使用方面,可以作为更高一级预测的探索工具。比如,先用决策树或聚类方法帮助找出数据的总体趋势,并预测数据相关性,再用神经网络或规则引导法有针对性地建模。这样做的好处是一来可以细化数据,提高性能;二来可以在某种程度上帮助消除数据噪声。

    (5)模型构造    模型构造的过程主要包括:选择适用的挖掘技术、建立培训数据和测试数据、利用培训数据采用相应的算法建立模型、模型解释和模型评估和检验。

  (6)部署和应用  如果经过测试和检验,所建立的模型可信,并在预定的误差范围内,那么便可以按照这种模型计算出输出值,并按照输出值确定决策的依据。这样就可以在企业范围内全面部署这个预测模型。在应用过程中,必须不断用新数据进行检验,并测试其成功概率。经过反复检验成功的模型就称为企业的一个重要知识,为企业成功决策打下良好的基础。





0 0
原创粉丝点击