概率图模型(07): 从思路到模型(Knowledge Engineering)

来源:互联网 发布:ee是哪个国家域名 编辑:程序博客网 时间:2024/05/21 17:10

从思路到模型(Knowledge Engineering)——建模过程中需要考虑什么


  本博客中 PGM 系列笔记以 Stanford 教授 Daphne Koller 的公开课 Probabilistic Graphical Model 为主线,并参阅 Koller著作及其翻译版对笔记加以补充。博文的章节编号与课程视频编号一致。
  博文持续更新(点击这里见系列笔记目录页)
,文中提到的资源以及更多见 PGM 资源分享和课程简介。

  从有向图到无向图,从全局分布到局部概率模型,前面课程已经介绍了多种模型和模型表示。如何将这些零散的知识结合起来,构建一个可以解决实际问题的模型呢?现在我们 take a big step back,来看看建模的思路方法和注意事项。

1 模型类型

  不同问题或数据类型有其适合的模型类型。一般地,模型类型的选择需要在以下三种机制(regimes)中做决策。

  • Template based versus specific
  • Directed versus undirected
  • Generative versus discriminative

  需要明确的是,很多情况下我们采用的是几种类型的混合模型(Hybrids),这十分常见。

1.1 template based VS specific

1)基于模板(template based):例如图像分割(image segamentation)。变量虽然很多,但都是一种类型(都是像素值);不同的超级像素划分导致不同的分类结果。

  • 较少的变量类型(variable types)
  • 特征提取对结果影响很大(feature engineering)

2)基于具体问题(specific):例如医疗诊断(medical diagnosis)。多种疾病,每种疾病诱发对应的症状,这个模型框架是比较清晰的。但由于疾病各异,故每个变量取值类型各不相同。

  • 很多特殊(unique)变量因不同问题而异

3)比如打印机的故障识别。故障识别体系已经有一个较为完整的框架(template based),但打印机类型各不相同,故因具体打印机而异(specific)。

  • 模型框架适用不同问题:shared variables
  • 特定问题有一定特殊性:unique variables

1.2 有向图 VS 无向图

1.3 生成式 VS 判别式

1)对于有特定预测任务,有丰富的强表达性特征的问题,判别模型适用。并且已有特征则使得我们不需要去处理原始变量间的相关性。

  • particular tasks
  • richly expressive features(avoid dealing with correlations)

2)对于需要灵活处理的模型,可以使用生成式,并且它在确定的机制下非常易于训练。

  • task shifts
  • easier to train in certain regimes

2 模型变量

2.1 三种变量类型

  (1)目标变量(Target):我们感兴趣的未知变量。将用模型来预测。
  (2)观察变量(Obeserved):已知变量。变量间包含复杂结构,蕴含某些特征(including complex, constructed features)
  (3)隐变量(Latent):我们不感兴趣的未知变量。但这类变量通常可以极大简化(simlify)模型结构。比如目标变量 A1,...,An 都是某个未知非目标变量 B 的子节点,虽然我们不关心 B 的取值,但 B 的存在使 Ai 间的关系十分明晰。如格林尼治时间和各地区时间的关系。

2.2 因果关系结构

1)因果关系使结构更清晰
这里写图片描述
  左图:GMT(Greenwich Mean Time, 格林尼治标准时间)是各地区时间的父节点,结构简单清晰。
  右图:若强制将边反向,则由于 GMT 不是其与 Wi 的因果关系中的果,故需要在各个 Wi 间增加边,以整体调控个变量关系。模型结构将变得十分复杂,但仍然是一个正确的模型。
  
  可见,因果关系虽然不是比别的关系更具准确性,但它使得网络表示更稀疏(Causal Ordering is sparser than non-causal Ordering)。

  • intuitive
  • easier to parameterize

2)建模前需理清变量间因果关系:医疗诊断例子(理清什么导致 cancer 和 cancer 导致什么)

3 模型参数

3.1 what matters

  • zeros(definitional 情形下引入 0 简化模型,但要十分谨慎)
  • Orders of parameters(参数间的数量级对结果的影响)
  • Relative values(CPDs 中考察相关变量的参数是否合理)

3.2 Structured-CPDs

  局部模型(Local structure)中的参数选择:
这里写图片描述

  • 上下文无关的离散模型:tree CPDs
  • 相关的离散模型:Sigmoid、Noisy PR、Noisy MAX
  • 上下文无关的连续模型:Regression tree ( thresholds ) 、离散变量上的条件线性高斯模型
  • 相关的连续模型:(条件)线性高斯模型

4 模型完善

  Iterative Refinement

  • Model testing
  • Sensitivity analysis for parameters
  • Error analysis
    •  Add features
    • Add dependencie

1)需要做模型检验
2)敏感性分析:找出对分布查询(quiery)影响最大的变量
3)模型如果准确性低或出错:

  • 提取更多 features 来从新的角度考察问题
  • 挖掘变量间的独立关系改进网络中的不合理
1 0