数理逻辑习题集(7)

来源:互联网 发布:双缝实验 知乎 编辑:程序博客网 时间:2024/05/22 08:09

写在前面
这10道题中,有几道题是有争议的。答案我只能是按照自己解析的理解来。欢迎指正,再次感谢热心网友和牛客网。

1.关于正态分布,下列说法错误的是:
A.正态分布具有集中性和对称性
B.正态分布的均值和方差能够决定正态分布的位置和形态
C.正态分布的偏度为0,峰度为1
D.标准正态分布的均值为0,方差为1

参考答案:C

解析:
偏度(Skewness)是描述某变量取值分布对称性的统计量。
如果是正太分布的话.偏度是 三阶中心距,值为0.
,Skewness=0 分布形态与正态分布偏度相同
Skewness>0 正偏差数值较大,为正偏或右偏。长尾巴拖在右边。
Skewness<0 负偏差数值较大,为负偏或左偏。长尾巴拖在左边。
计算公式:
Skewness=E[((xE(x))/(D(x)))3]
| Skewness| 越大,分布形态偏移程度越大。

峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。
它是和正态分布相比较的。
Kurtosis=0 与正态分布的陡缓程度相同。
Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
Kurtosis<0 比正态分布的高峰来得平台——平顶峰
计算公式:
Kurtosis=E[((xE(x))/((D(x))))4]3 四阶中心距-3.

如果是正态分布,那么偏度,峰度均为0.

2.以下对k-means聚类算法解释正确的是
A.能自动识别类的个数,随机挑选初始点为中心点计算
B.能自动识别类的个数,不是随机挑选初始点为中心点计算
C.不能自动识别类的个数,随机挑选初始点为中心点计算
D.不能自动识别类的个数,不是随机挑选初始点为中心点计算

参考答案:C

解析:这题是比较简单的,主要考察两个部分:
1、聚类是不是能自动识别分类个数。
2、聚类的初始点是不是随机的。

但是主要矛盾集中在初始点是不是随机的。其实一般来讲,K-means聚类算法确实是随机挑选初始点的,但是这个随机也并不是真随机,也是有一定规则约束下的随机,我想这里的随机主要是针对于“给定”这样的词。

3.想要了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是?
A.从中抽取的500名学生的身高
B.上海市全部小学生的身高
C.从中抽取的500名小学生
D.上海市全部小学生

参考答案:A

解析:这题主要是统计学的基本常识。
总体是指考察的对象的全体;个体是总体中的每一个考察的对象;样本是总体中所抽取的一部分个体;而样本容量则是指样本中个体的数目.

首先我们要了解的是身高,所以CD排除,而B是考察对象的全体,所以B是总体。所以答案A正确。

4.20个阿里巴巴B2B技术部的员工被安排为4排,每排5个人,我们任意选其中4人送给他们一人一本《effective c++》,那么我们选出的4人都在不同排的概率为:
A.545!15!/20!
B.455!15!/20!
C.544!16!/20!
D.454!16!/20!

参考答案:C

解析:这是非常常见的组合数学中的问题,类似的还有书架选书等题目。

首先4排中每排选择1人作为送书的人,这样就有54个可能,而这4排又有A(4,4)种全排列,也就是4!种可能,剩下的16个则插入其余的位置中,共有16!种可能,最后归一化,即可知道最终的概率为544!16!/20!

5.在以下不同的场景中,使用的分析方法不正确的有
A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式
C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

参考答案:B

解析:B选项,预测消费需要用回归模型来做。而不是聚类算法。

6.每台物理计算机可以虚拟出 20 台虚拟机,假设一台虚拟机发生故障当且仅当它所宿主的物理机发生故障。通过 5 台物理机虚拟出100 台虚拟机,那么关于这 100 台虚拟机的故障的说法正确的是:__?
A.单台虚拟机的故障率高于单台物理机的故障率
B.这 100 台虚拟机发生故障是彼此独立的
C.这100台虚拟机单位时间内出现故障的个数高于100台物理机单位时间内出现故障的个数
D.无法判断这 100 台虚拟机和 100 台物理机哪个更可靠
E.如果随机选出 5 台虚拟机组成集群, 那么这个集群的可靠性和 5 台物理机的可靠性相同
F.可能有一段时间只有 1 台虚拟机发生故障

参考答案:C

解析:
A是相等的。
B20台为一组,不独立。
C既然虚拟机并不是相互独立的,那么也自然没有办法应用常规的求数学期望的办法了。所以求数学期望的那种办法行不通。

这里应该主要考察独立分布和非独立分布之间的差异,这样理解就好理解多了。同为100台机器,虚拟机每台发生故障概率与物理机发生故障概率相同,但是虚拟机每20台是会互相影响,其中一台发生故障,其他19台也会发生故障,这样故障率就会提升20倍,因此C正确。

D这就相当于判断100台虚拟机和2000台虚拟机哪个更可靠是一样的。

E如果挑选出的5台虚拟机在五台物理机上,则是相同,否则不同。

F一旦发生故障必须是20起步。

7.一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?
A.ML=MSE
B.ML>MSE
C.ML<MSE

参考答案:C

解析:这道题就比较难。如果考虑数学方法的话需要非常多的步骤,但是显然考试的时候不会给我们这么多时间,更不会让我们编程实现了。。。

简单来讲:ML比较激进,要是没看到人头,就会估计人头的出现概率为0,而MMSE则不会。MMSE比较保守,所以造成的效果就是总把估计往先验(在此为均匀分布)拉一拉,因此ML估高的MMSE就会估小一点儿,MLE估低MMSE就会估大一点儿。

8.下列选项中,识别模式与其他不⼀样的是
A.⽤户年龄分布判断:少年、青年、中年、⽼年
B.医⽣给病⼈诊断发病类型
C.投递员分拣信件
D.消费者类型判断:⾼消费、⼀般消息、低消费
E.出⾏方式判断:步⾏、骑车、坐车
F.商家对商品分级

参考答案:C(E)

解析:有人认为是E,有人认为是C,我个人倾向于C。

选择E的理由是这是一个预测问题,但我觉得不然。对于历史问题同样可以进行出行方式判断,比如给出历史数据中的出行时间花费和公里数,就可以对出行方式进行判断。

而选择E不选择C的理由是,分拣信件也许最终的目标是分地域,比如按照邮编等这种。

但我个人认为,注意题目中给出的是投递员而不是分拣员,那么最终应当是那个送到你手上的那个人,它的结果是不固定的,因此并不能看成是一个分类问题,有可能是聚类问题(比如在一个大学及其附近的人都会进行同一次投递,而并不是区分其地址,也不是区分邮编,而仅仅是依靠距离远近和所在目标的人数来判断)。

因此我觉得答案是C。

9.卡方分布的方差为2倍的自由度为?
A.n
B.1
C.2n
D.4n

参考答案:C

解析:
卡方分布:若 n 个相互独立的随机变量ξ ₁ 、ξ ₂ 、……、ξ n ,均服从标准正态分布(也称独立同分布于标准正态分布),则这 n 个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布( chi-square distribution )。

分布的均值为自由度 n ,记为 E( χ2 ) = n 。

分布的方差为 2 倍的自由度 (2n) ,记为 D( χ2 ) = 2n 。

10.下列有关k-mean算法说法正确的是()
A.不能自动识别类的个数,随机挑选初始点为中心点计算
B.数据数量不多时,输入的数据的顺序不同会导致结果不同
C.不能自动识别类的个数,不是随机挑选初始点为中心点计算
D.初始聚类中心的选择对聚类结果的影响很大

参考答案:AD

解析:和第二题一样,因此C不对,A对。

输入数据的顺序并不会导致结果的不同,结果不同主要取决于初始点的选取,而中心点的修正则是遍历所有点后的结果,因此不会因为输入顺序的改变而改变,因此B不对,D对。