Week 9:Anomaly Detection课后习题解答

来源:互联网 发布:新塘哪里有网络牛仔 编辑:程序博客网 时间:2024/05/20 20:21

转载:http://blog.csdn.net/a1015553840/article/details/50896575

大家好,我是Mac Jiang,今天和大家分享Coursera-Stanford University-Machine Learning-Week 8:Anomaly Detection的课后习题解答。注意:每个同学的习题的参数和选项都是不同的,在参考时不要照抄,避免带来错误!我的分析也不一定是正确的,如果各位博友发现错误,请留言联系,谢谢。希望我的博客能给你带来一些学习上的帮助!

1.第一题 
这里写图片描述 
(1)题意:异常检测算法适合解决下列哪些问题? 
              1.给定一张人脸图片,辨别他是不是一个名人 
              2.从大量初级保健病人记录,确定谁可能有不正常的健康问题 
              3.从信用卡交易中得到的数据,按购买类型进行分类(食品,运输,服装) 
              4.从信用卡的交易数据中,确定不正常的交易,因此我们可以确定它们是不是被盗刷了 
(2)分析:异常检测是从大量正确的样本中找出明显偏离的错误样本,绝大多数的样本都是正确的,是一个偏斜类。而有监督学习的各种类别的样本数都较多,一般不是偏斜类。 
              1.错误。名人也是人,名人并不是错误样本,而且名人非常多,不能说每个名人都是错误的吧 
              2.正确。这些保健人群大多数是健康人,很少是有不正常的健康问题,这些不健康的就是异常点,可以用异常检测 
              3.错误。这显然是有监督学习里的分类 
              4.正确。信用卡的绝大部分数据都是本人使用时产生的,如果被盗刷,则这个数据很可能偏离本人使用习惯,及产生异常。 
(3)答案:2,4

2.第二题 
这里写图片描述 
(1)题意:你训练了一个异常检测系统,当p(x)的值小于ipsilon,当你利用验证样本验证时发现,出现太多错误的0(1表示异常,0表示正常。太多错误的0就是说很多异常的被错误的认为是正常的),我们应该怎么办? 
             1.增大ipsilon 
             2.减小ipsilon 
(2)分析:太多的异常点未被标为异常,说明ipsilon太小了,应该增大 
(3)答案:1

3.第三题 
这里写图片描述 
(1)题意:你在利用异常检测系统来测试飞机引擎,你用的模型如上面公式。你有两个特征,x1是发动机的震动强度,x2是发动机的发热状况,x1和x2取值都在0-1之间。正常的引擎的x1约等于x2。常见的一种异常是发送机震动得非常快但是不会产生大量热(x1很大,x2很小),而此时x1和x2的值却都在0-1内,并未超过这个范围。如果你要创建一个特征来解决这个问题,你选择哪个? 
(2)分析:现在的异常情况是发送机震动的非常快,但是产热很少,及x1很大,x2很小。 
            1.x3 = 1/x2。错误,因为有的发动机产热和他一样低,但是震动很慢,他是正常的,不能和此异常区别 
            2.x3 = 1/x1。错误,因为有的发动机震动速度和他一样快,但是产热高,利用这个不能区别。 
            3.x3 = x1 + x2。错误,完全有发动机震动一般快,发热一般多,但两者之和与这个异常发动机一样。 
            4.x3 = x1/x2。正确 
(3)答案:4

4.第四题 
这里写图片描述 
(1)题意:选出所有正确的陈述 
              1.如果你的所有数据被归为y=0类,此时仍然能学习异常检测函数p(x),但是如何评价这个系统,或选择好的ipsilon将成为一个问题 
              2.当为异常检测系统选择特征时,寻找异常大或者异常小的特征是一个好办法 
              3.如果有大量正样本的大量负样本,异常检测算法和有监督学习算法(如SVM)的表现一样好 
              4.如果你在开发一个异常检测系统,没有办法利用标记的数据来改进你的系统 
(2)分析:1.正确。在训练异常检测系统时用的一般是全部正常的数据,及y=0,但是任然可以建立系统。只是在验证时需要一些异常样本,用于确定ipsilon的大小 
            2.正确,异常的或异常小的特征可以帮助样本脱离正常区域,方便分类进行 
            3.错误,异常检测适合处理的是绝大多数样本是正常,少数样本是异常的偏斜类,而有监督学习适合处理的是两者都有相当数量的数据 
            4.错误,比如你可以用标记为异常的样本y=1来寻找最优的ipsolon 
(3)答案:1,2

5.第五题 
这里写图片描述 
(1)题意:有一位数据集{x(1)…x(m)},你想检测里面的离群值,做出上图所示的图形。假设你用高斯分布你和他,则mu1和sigma^2分别为什么 
(2)分析:可以发现最密的地方在-3左右,mu为-3;至于sigma^2博主真的是无能为力了,不知道怎么算。不过以前学过,正太分布在[u-sigma,u+sigma]范围内的概率为68%左右,不知道对这道题有没有帮助。 
(3)答案:博主亲测,答案选1

0 0