具有贝叶斯数据重构的鲁棒概率建模

来源:互联网 发布:python多线程的作用 编辑:程序博客网 时间:2024/05/22 01:51

RobustProbabilistic Modeling with Bayesian Data Reweighting

具有贝叶斯数据重构的鲁棒概率建模

Yixin Wang 1  Alp Kucukelbir 1  David M. Blei

 

一.  本文讲了什么问题?

概率建模是一种发现数据中潜在规律的重要方法,概率模型通过一组假设来分析数据,但倘若数据偏离了假设就会给我们的推断和预测带来威胁。例如一个电影推荐系统是通过收集分析账户登录人观看的电影集来推荐电影的,假如一个孩子每天通过自己的账户观看动画片,推荐系统自然而然就会推荐动画片;但如果某天孩子的父母通过孩子的账号观看了恐怖片,类似泊松分解的推荐模型就会开始推荐恐怖片。想象一下孩子登录自己的账号发现电影推荐界面都是恐怖片的场景!本文就主要讲了如何侦测和降低概率模型中这种不友好数据对假设的影响。

 

二.解决问题的方法。

本文通篇讲述了一种基于贝叶斯的重新加权的概率模型Reweighted probabilistic models (RPM),通过每个观察的潜在权重来调整每个观察的贡献,对原始概率模型的各观察权重和潜在变量进行推导;调整之后的模型的后验确定与其假设相符的观察; 它下调了不同意其假设的观察,通过对观察结果的后验推理,RPM自动识别与模型的假设相匹配的观察结果。

文中通过对原始概率模型(Original probabilistic model),重新加权概率模型(  Reweighted probabilistic model (RPM)),本地化概率模型(Localized probabilistic model)进行分析对比来解释RPM。通过对权重先验的学习来求后验,三个求先验方法:a bank of Beta distributions, a scaled Dirichlet distribution, and abank of Gamma distributions。通过1. 异常值:网络等待时间示例 2. 缺失潜在群体:预测色盲 3. 协变量依赖错误指定:肺癌风险研究;这三个例子详细介绍了RPM的应用。在电影推荐系统的例子中,RPM会增加孩子观看的电影的权重而降低父母观看电影的权重从而继续推荐动画电影。

 

三.RPM方法的优点

大大降低了不友好数据对概率模型的影响,提高了模型的鲁棒性和预测精准度。

 

四.RPM方法的缺点

在电影推荐系统的例子中,倘若孩子用自己的账号看了很多动画电影假设100部,父母怕影响孩子的学习而接管了孩子的账号,父母开始看恐怖电影也希望系统推荐恐怖电影,但即使父母连续看了5部恐怖电影系统还是可能会推荐动画电影,我认为RPM可能没有考虑到数据的连续性。

 

 

 

 

原创粉丝点击