Week 9:Anomaly Detection课后习题解答

来源：互联网发布：新塘哪里有网络牛仔编辑：程序博客网时间：2024/05/20 20:21

转载：http://blog.csdn.net/a1015553840/article/details/50896575

大家好，我是Mac Jiang，今天和大家分享Coursera-Stanford University-Machine Learning-Week 8:Anomaly Detection的课后习题解答。注意：每个同学的习题的参数和选项都是不同的，在参考时不要照抄，避免带来错误！我的分析也不一定是正确的，如果各位博友发现错误，请留言联系，谢谢。希望我的博客能给你带来一些学习上的帮助！

1.第一题
这里写图片描述
(1)题意：异常检测算法适合解决下列哪些问题？
              1.给定一张人脸图片，辨别他是不是一个名人
              2.从大量初级保健病人记录，确定谁可能有不正常的健康问题
              3.从信用卡交易中得到的数据，按购买类型进行分类（食品，运输，服装）
              4.从信用卡的交易数据中，确定不正常的交易，因此我们可以确定它们是不是被盗刷了
(2)分析：异常检测是从大量正确的样本中找出明显偏离的错误样本，绝大多数的样本都是正确的，是一个偏斜类。而有监督学习的各种类别的样本数都较多，一般不是偏斜类。
              1.错误。名人也是人，名人并不是错误样本，而且名人非常多，不能说每个名人都是错误的吧
              2.正确。这些保健人群大多数是健康人，很少是有不正常的健康问题，这些不健康的就是异常点，可以用异常检测
              3.错误。这显然是有监督学习里的分类
              4.正确。信用卡的绝大部分数据都是本人使用时产生的，如果被盗刷，则这个数据很可能偏离本人使用习惯，及产生异常。
(3)答案：2，4

2.第二题
这里写图片描述
(1)题意：你训练了一个异常检测系统，当p(x)的值小于ipsilon，当你利用验证样本验证时发现，出现太多错误的0（1表示异常，0表示正常。太多错误的0就是说很多异常的被错误的认为是正常的），我们应该怎么办？
1.增大ipsilon
2.减小ipsilon
(2)分析：太多的异常点未被标为异常，说明ipsilon太小了，应该增大
(3)答案：1

3.第三题
这里写图片描述
(1)题意：你在利用异常检测系统来测试飞机引擎，你用的模型如上面公式。你有两个特征，x1是发动机的震动强度，x2是发动机的发热状况，x1和x2取值都在0-1之间。正常的引擎的x1约等于x2。常见的一种异常是发送机震动得非常快但是不会产生大量热（x1很大，x2很小），而此时x1和x2的值却都在0-1内，并未超过这个范围。如果你要创建一个特征来解决这个问题，你选择哪个？
(2)分析：现在的异常情况是发送机震动的非常快，但是产热很少，及x1很大，x2很小。
            1.x3 = 1/x2。错误，因为有的发动机产热和他一样低，但是震动很慢，他是正常的，不能和此异常区别
            2.x3 = 1/x1。错误，因为有的发动机震动速度和他一样快，但是产热高，利用这个不能区别。
            3.x3 = x1 + x2。错误，完全有发动机震动一般快，发热一般多，但两者之和与这个异常发动机一样。
            4.x3 = x1/x2。正确
(3)答案：4

4.第四题
这里写图片描述
(1)题意：选出所有正确的陈述
              1.如果你的所有数据被归为y=0类，此时仍然能学习异常检测函数p(x)，但是如何评价这个系统，或选择好的ipsilon将成为一个问题
              2.当为异常检测系统选择特征时，寻找异常大或者异常小的特征是一个好办法
              3.如果有大量正样本的大量负样本，异常检测算法和有监督学习算法（如SVM）的表现一样好
              4.如果你在开发一个异常检测系统，没有办法利用标记的数据来改进你的系统
(2)分析:1.正确。在训练异常检测系统时用的一般是全部正常的数据，及y=0,但是任然可以建立系统。只是在验证时需要一些异常样本，用于确定ipsilon的大小
            2.正确，异常的或异常小的特征可以帮助样本脱离正常区域，方便分类进行
            3.错误，异常检测适合处理的是绝大多数样本是正常，少数样本是异常的偏斜类，而有监督学习适合处理的是两者都有相当数量的数据
            4.错误，比如你可以用标记为异常的样本y=1来寻找最优的ipsolon
(3)答案:1，2

5.第五题
这里写图片描述
(1)题意：有一位数据集{x(1)…x(m)}，你想检测里面的离群值，做出上图所示的图形。假设你用高斯分布你和他，则mu1和sigma^2分别为什么
(2)分析：可以发现最密的地方在-3左右，mu为-3；至于sigma^2博主真的是无能为力了，不知道怎么算。不过以前学过，正太分布在[u-sigma,u+sigma]范围内的概率为68%左右，不知道对这道题有没有帮助。
(3)答案：博主亲测，答案选1

0 0