概率图模型(07): 从思路到模型(Knowledge Engineering)

来源：互联网发布：ee是哪个国家域名编辑：程序博客网时间：2024/05/21 17:10

从思路到模型（Knowledge Engineering）——建模过程中需要考虑什么

　　本博客中 PGM 系列笔记以 Stanford 教授 Daphne Koller 的公开课 Probabilistic Graphical Model 为主线，并参阅 Koller著作及其翻译版对笔记加以补充。博文的章节编号与课程视频编号一致。
　　博文持续更新（点击这里见系列笔记目录页），文中提到的资源以及更多见 PGM 资源分享和课程简介。

　　从有向图到无向图，从全局分布到局部概率模型，前面课程已经介绍了多种模型和模型表示。如何将这些零散的知识结合起来，构建一个可以解决实际问题的模型呢？现在我们 take a big step back，来看看建模的思路方法和注意事项。

1 模型类型

　　不同问题或数据类型有其适合的模型类型。一般地，模型类型的选择需要在以下三种机制（regimes）中做决策。

Template based versus specific
Directed versus undirected
Generative versus discriminative

需要明确的是，很多情况下我们采用的是几种类型的混合模型（Hybrids），这十分常见。

1.1 template based VS specific

1）基于模板（template based）：例如图像分割（image segamentation）。变量虽然很多，但都是一种类型（都是像素值）；不同的超级像素划分导致不同的分类结果。

较少的变量类型（variable types）
特征提取对结果影响很大（feature engineering）

2）基于具体问题（specific）：例如医疗诊断（medical diagnosis）。多种疾病，每种疾病诱发对应的症状，这个模型框架是比较清晰的。但由于疾病各异，故每个变量取值类型各不相同。

很多特殊（unique）变量因不同问题而异

3）比如打印机的故障识别。故障识别体系已经有一个较为完整的框架（template based），但打印机类型各不相同，故因具体打印机而异（specific）。

模型框架适用不同问题：shared variables
特定问题有一定特殊性：unique variables

1.2 有向图 VS 无向图

1.3 生成式 VS 判别式

1）对于有特定预测任务，有丰富的强表达性特征的问题，判别模型适用。并且已有特征则使得我们不需要去处理原始变量间的相关性。

particular tasks
richly expressive features（avoid dealing with correlations）

2）对于需要灵活处理的模型，可以使用生成式，并且它在确定的机制下非常易于训练。

task shifts
easier to train in certain regimes

2 模型变量

2.1 三种变量类型

　　(1)目标变量（Target）：我们感兴趣的未知变量。将用模型来预测。
　　(2)观察变量（Obeserved）：已知变量。变量间包含复杂结构，蕴含某些特征（including complex, constructed features）
　　(3)隐变量（Latent）：我们不感兴趣的未知变量。但这类变量通常可以极大简化（simlify）模型结构。比如目标变量 A1,...,An 都是某个未知非目标变量 B 的子节点，虽然我们不关心 B 的取值，但 B 的存在使 Ai 间的关系十分明晰。如格林尼治时间和各地区时间的关系。

2.2 因果关系结构

1）因果关系使结构更清晰
这里写图片描述
　　左图：GMT（Greenwich Mean Time, 格林尼治标准时间）是各地区时间的父节点，结构简单清晰。
　　右图：若强制将边反向，则由于 GMT 不是其与 Wi 的因果关系中的果，故需要在各个 Wi 间增加边，以整体调控个变量关系。模型结构将变得十分复杂，但仍然是一个正确的模型。
　　
　　可见，因果关系虽然不是比别的关系更具准确性，但它使得网络表示更稀疏（Causal Ordering is sparser than non-causal Ordering）。

intuitive
easier to parameterize

2）建模前需理清变量间因果关系：医疗诊断例子（理清什么导致 cancer 和 cancer 导致什么）

3 模型参数

3.1 what matters

zeros（definitional 情形下引入 0 简化模型，但要十分谨慎）
Orders of parameters（参数间的数量级对结果的影响）
Relative values（CPDs 中考察相关变量的参数是否合理）

3.2 Structured-CPDs

　　局部模型（Local structure）中的参数选择：
这里写图片描述

上下文无关的离散模型：tree CPDs
相关的离散模型：Sigmoid、Noisy PR、Noisy MAX
上下文无关的连续模型：Regression tree ( thresholds ) 、离散变量上的条件线性高斯模型
相关的连续模型：（条件）线性高斯模型

4 模型完善

　　Iterative Refinement

Model testing
Sensitivity analysis for parameters
Error analysis
-  Add features
- Add dependencie

1）需要做模型检验
2）敏感性分析：找出对分布查询（quiery）影响最大的变量
3）模型如果准确性低或出错：

提取更多 features 来从新的角度考察问题
挖掘变量间的独立关系改进网络中的不合理

1 0