搜狗笔试题做题记录-2014.09.23

来源:互联网 发布:阿里云 香港vps 翻墙 编辑:程序博客网 时间:2024/06/17 20:14

编程题

给定一个数组a[N],我们希望构造数组b[N],其中b[i]=a[0]*a[1]*...*a[N-1]/a[i]
在构造过程要求满足:
1、不使用除法;
2、O(1)空间复杂度和O(n)时间复杂度;
3、除遍历a[N] b[N]使用的计数器外,不使用任何新的变量(包括栈临时变量、对空间和全局静态变量等);

/**********************************************//*给定一个数组a[N],我们希望构造数组b[N],其中b[i]=a[0]*a[1]*...*a[N-1]/a[i]。在构造过程:1不允许使用除法;2要求O(1)空间复杂度和O(n)时间复杂度;3除遍历计数器与a[N] b[N]外,不可使用新的变量(包括栈临时变量、对空间和全局静态变量等);*//**********************************************/void makeArray(int a[],int b[],int len){int i,j;b[0] = 1;for(i=1;i<len;i++){b[i] = b[i-1]*a[i-1];   //累乘a[0]*a[1]...a[i-1]}b[0] = a[len-1];for(j=len-2;j>0;j--){b[j] *= b[0];b[0] *= a[j];}}

Research类

1、在大规模的语料中,挖掘词的相关性是一个重要的问题,以下哪一个信息不能用于确定两个词的相关性。(B

A.互信息   B.最大熵   C.卡方检验   D.最大似然比
说明:A、C是文本特征的选择方法,所以可以确定两个词的相关性。通过包含两个词和仅包含一个词的最大似然比,可以确定两个词的相关性
2、以下哪个不属于条件随机场模型CRF对于隐马模型HMM和最大熵隐马模型MEMM模型的优势(B
A.特征灵活   B.速度快   C.可容纳较多上下文信息   D.全局最优
说明:因为MEMM只在局部做归一化,所以容易陷入局部最优,而CRF模型中,统计了全局概率,在做归一化时,考虑数据在全局的分布,而不是仅仅在局部归一化,解决了MEMM中的标记偏置的问题,可以得到全局最优;CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息,特征设计灵活。但是CRF有明显的缺点:训练代价大、复杂度高。
补充说明:首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模,像词性标注,True casing。但隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而最大熵隐马模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉,而条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。目前,条件随机场的训练和解码的开源工具还只支持链式的序列,复杂的尚不支持,而且训练时间很长,但效果还可以。
3、下列属于无监督学习的是(A
A. k-means   B. SVM   C. 最大熵   D. CRF
说明:k-means聚类算法,不需要标注样本,无监督。SVM、最大熵、CRF是可以进行分类的浅层分类算法(非深度学习),需要使用有标注的样本进行训练
4、以下哪些方法不可以直接用来对文本分类(A
A. K-means   B. 决策树   C. 支持向量机   D. KNN
说明:决策树、SVM、K近邻为分类算法,K-means为聚类算法
5、解决隐马模型中预测问题的算法是(D
A.前向算法   B.后向算法   C.Baum-Welch算法   D.维特比算法
说明:HMM有三个典型(canonical)问题:
已知模型参数,计算某一特定输出序列的概率,通常使用forward算法解决;
已知模型参数,寻找最可能的能产生某一特定输出序列的隐含状态的序列,通常使用Viterbi算法解决;
已知输出序列,寻找最可能的状态转移以及输出概率,通常使用Baum-Welch算法以及Reversed Viterbi算法解决。
另外,最近的一些方法使用Junction tree算法来解决这三个问题。
6、一个有偏的硬币,抛了100次,出现1次人头,99次字。分别使用最大似然估计ML和最小均方误差LSE(MMSE)估计出现人头的概率哪个大(C
A ML=MSE   B ML>MSE   C ML<MSE
说明:ML比较激进,要是没看到人头,就会估计人头的出现概率为0,而MMSE则不会。MMSE比较保守,所以造成的效果就是总把估计往先验(在此为均匀分布)拉一拉,因此ML估高的MMSE就会估小一点儿,MLE估低MMSE就会估大一点儿。
7、两艘船在同一时刻驶离河的两岸,一艘船从A驶往B,另一艘船从B驶往A,其中一艘开的比另一艘快些,因此他们在距离较近的岸5公里处相遇,到达预定地点后,每艘船要停留15分钟。以便乘客上下船,然后他们又返航,这两艘船在距另一岸1公里处重新相遇,请问河宽__公里。
说明:设河宽d,Va<Vb,则有5/Va=(d-5)/Vb和(d-5+1)/Va=(d-1+5)/Vb,所以5/(d-5)=(d-4)/(d+4),解得d=14
5 0
原创粉丝点击