2017.04.19:今日头条数据分析笔试01

来源:互联网 发布:腾讯软件管家 编辑:程序博客网 时间:2024/05/01 13:33

1.如何识别山寨APP

 

2.有监督学习vs无监督学习

是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervisedlearning)。如果数据没有标签,显然就是无监督学习(unsupervisedlearning)了,也即聚类(clustering)。


3.P值

P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。

P值,碰巧的概率,对无效假设的统计意义

P>0.05 碰巧出现的可能性大于5% 不能否定无效假设 两组差别无显著意义

P<0.05 碰巧出现的可能性小于5% 可以否定无效假设 两组差别有显著意义

P<0.01 碰巧出现的可能性小于1% 可以否定无效假设 两者差别有非常显著意义

4.大数定律

大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。

5.梯度下降

梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。

缺点:靠近极小值时收敛速度减慢。直线搜索时可能会产生一些问题。可能会“之字形”地下降。

6.数仓模型

1、星型模型

星型模型是一种由一点向外辐射的建模范例,中间有一单一对象沿半径向外连接到多个对象。星型模型反映了最终用户对商务查询的看法:销售事实、赔偿、付款和货物的托运都用一维或多维描述(按月、产品、地理位置)。星型模型中心的对象称为“事实表”,与之相连的对象称为“维表”。对事实表的查询就是获取指向维表的指针表,当对事实表的查询与对维表的查询结合在一起时,就可以检索大量的信息。通过联合,维表可以对查找标准细剖和聚集。

2、雪花模型

雪花模型是对星型模型的扩展,每一个点都沿半径向外连接到多个点.雪花模型对星型的维表进一步标准化,它的优点是通过最大限度的减少数据存储量以及把较小的标准化表(而不是大的非标准化表)联合在一起来改善查询性能。化及维的较低的粒度,雪花模型增加了应用程序的灵活性。

3、混合模型

混合模型是星型模型和雪花模型的一种折衷模式,其中星型模型由事实表和标准化的维表组成,雪花模型的所有维表都进行了标准化。在混合模型中,只有最大的维表才进行标准化,这些表一般包含一列列完全标准化的(重复的)数据。

7.新策略上线,10%对应的收益为5%;100%对应的收益为1%,为什么?

8.商品定价策略

9.Hive与Mysql编写代码时的不同

10.提高用户对广告的体验

0 0
原创粉丝点击