2017.04.18：网易2017校招数据分析开放题

来源：互联网发布：如何用telnet测试端口编辑：程序博客网时间：2024/06/01 09:29

1.异常值检测

原因：

(1)数据来源于不同的类：某个数据对象可能不同于其他数据对象(即异常)，因为它术语一个不同的类型或类。Hawkins的离群点定义：离群点是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。

(2)自然变异：许多数据集可以用一个统计分布建模，如正态(高斯)分布建模，其中数据对象的概率随对象到分布中心距离的增加而急剧减少。换言之，大部分数据对象靠近中心(平均对象)，数据对象显著地不同于这个平均对象的似然性很小。

(3)数据测量和收集误差：数据收集和测量过程中的误差是另一个异常源。剔除这类异常是数据预处理(尤其是数据清理)的关注点。

异常检测方法

(1)基于模型的技术：许多异常检测技术首先建立一个数据模型。异常是那些同模型不能完美拟合的对象。

(2)基于邻近度的技术：通常可以在对象之间定义邻近性度量，并且许多移仓检测方法都基于邻近度。异常对象是那些远离大部分其他对象的对象，这一邻域的许多技术都基于距离，称作基于距离的离群点检测技术。

(3)基于密度的技术：对象的密度估计可以相对直接地计算，特别是当对象之间存在邻近度度量时。地密度区域中的对象相对远离近邻，可能被看做异常。

2.推荐系统的评价指标

1.平均误差MAE(MeanAbsolute Error )：平均绝对误差 MAE是评价推荐算法质量的标准之一 ,它通过计算预测评分与真实评价数据上的差别来衡量推荐结果的准确性。MAE的值越小 ,推荐准确性越高。假设预测的用户评分集合表示为{P1,P2,⋯PN},对应的实际用户评分集合为 {q1,q2,⋯ ,qN} ,则具体的 MAE计算公式为

2.准确率与召回率（Precision& Recall）

准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。一般来说，Precision就是检索出来的条目（比如：文档、网页等）有多少是准确的，Recall就是所有准确的条目有多少被检索出来了。

正确率、召回率和 F1 值是在鱼龙混杂的环境中，选出目标的重要评价指标。不妨看看这些指标的定义先：

1. 正确率 = 提取出的正确信息条数 / 提取出的信息条数

2. 召回率 = 提取出的正确信息条数 / 样本中的信息条数

3. F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) （F 值即为正确率和召回率的调和平均值）。

3.综合评价指标（F-Measure）

P和R指标有时候会出现的矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure（又称为F-Score）。F-Measure是Precision和Recall加权调和平均：

0 0