条件随机场总结

来源：互联网发布：富士打印软件编辑：程序博客网时间：2024/06/04 18:56

一. 概率无向图模型（马尔科夫随机场）

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因

子分解。概率无向图模型的最大特点就是易于因子分解。概率无向图模型的因子分解由Hammersley-Clifford定理保

证。概率无向图模型的联合概率分布 $P\left( Y \right)$ ，如下所示：

$P\left( Y \right) = \frac{1}{Z}\prod\limits_C {{\psi _C}} {Y_C}$

$Z = \sum\limits_Y {\prod\limits_C {{\psi _C}} {Y_C}}$

其中， $C$ 是无向图的最大团， $Y_{C}$ 是 $C$ 的结点对应的随机变量， ${\psi _C}{\left( Y \right_C)}$ （势函数）是 $C$ 上定义的严格正函数，通常为指

数函数 ${\psi _C}\left( {{Y_C}} \right) = \exp \left\{ { - E\left( {{Y_C}} \right)} \right\}$ ，乘积是在无向图所有的最大团上进行的。

说明：理解成对马尔可夫性；局部马尔科夫性；全局马尔科夫性的概念。

二. 条件随机场的定义与形式

1. CRF的定义

（1）条件随机场

设 $X$ 与 $Y$ 是随机变量， $P\left( {Y|X} \right)$ 是在给定 $X$ 的条件下 $Y$ 的条件概率分布。若随机变量 $Y$ 构成一个由无向图 $G = \left( {V{\rm{,}}E} \right)$ 表

示的马尔科夫随机场（概率无向图模型），即 $P\left( {{Y_v}|X,{Y_w},w \ne v} \right) = P\left( {{Y_v}|X,{Y_w},w \sim v} \right)$ 。

对任意结点 $v$ 成立，则称条件概率分布 $P\left( {Y|X} \right)$ 为条件随机场。式中 ${w \sim v}$ 表示在图 $G = \left( {V{\rm{,}}E} \right)$ 中与结点 $v$ 有边连接的所

有结点 $w$ ， ${w \ne v}$ 表示结点 $v$ 以外的所有结点， ${Y_v},{Y_u}$ 与 ${Y_w}$ 为结点 $v,u$ 与 $w$ 对应的随机变量。

（2）线性链条件随机场

设 $X = \left( {{X_1},{X_2},...,{X_n}} \right),Y = \left( {{Y_1},{Y_2},...,{Y_n}} \right)$ 均为线性链表示的随机变量序列，若在给定随机变量序列 $X$ 的条件下，随机

变量序列 $Y$ 的条件概率分布 $P\left( {Y|X} \right)$ 构成条件随机场，即满足马尔科夫性，如下所示：

$P\left( {{Y_i}|X,{Y_1},...,{Y_{i - 1}},{Y_{i + 1}},...,{Y_n}} \right) = P\left( {{Y_i}|X,{Y_{i - 1}},{Y_{i + 1}}} \right),i = 1,2,...,n$ （在 $i=1$ 和 $n$ 时只考虑单边）

则称 $P\left( {Y|X} \right)$ 为线性链条件随机场。在标注问题中， $X$ 表示出入观测序列， $Y$ 表示对应的输出标记序列或状态序列。学

习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型 $\hat P\left( {Y|X} \right)$ ；预测时，对于给定的输

入序列 $x$ 求出条件概率 $\hat P\left( {y|x} \right)$ 最大的输出序列 $\hat y$ 。

2. CRF的参数化形式

设 $P\left( {Y|X} \right)$ 为线性链条件随机场，则在随机变量 $X$ 取值为 $x$ 的条件下，随机变量 $Y$ 取值为 $y$ 的条件概率，如下所示：

$P\left( {y|x} \right) = \frac{1}{{Z\left( x \right)}}\exp \left( {\sum\limits_{i,k} {{\lambda _k}{t_k}\left( {{y_{i - 1}},{y_i},x,i} \right) + \sum\limits_{i,l} {{\mu _l}{s_l}\left( {{y_i},x,i} \right)} } } \right)$

$Z\left( x \right) = \sum\limits_y {\exp \left( {\sum\limits_{i,k} {{\lambda _k}{t_k}\left( {{y_{i - 1}},{y_i},x,i} \right) + \sum\limits_{i,l} {{\mu _l}{s_l}\left( {{y_i},x,i} \right)} } } \right)}$

其中， ${{t_k}}$ 和 ${{s_l}}$ 是特征函数， ${{\lambda _k}}$ 和 ${{\mu _l}}$ 是对应的权值， $Z\left( x \right)$ 是规范化因子，求和是在所有可能的输出序列上进行的。 ${{t_k}}$ 是定

义在边上的特征函数，称为转移特征，依赖于当前和前一个位置， ${{s_l}}$ 是定义在结点上的特征函数，称为状态特征，依

赖于当前位置。 ${{t_k}}$ 和 ${{s_l}}$ 都依赖于位置，是局部特征函数，通常特征函数 ${{t_k}}$ 和 ${{s_l}}$ 取值为1（满足特征条件）或0（不满足特

征条件）。条件随机场完全由特征函数 ${{t_k}}$ ， ${{s_l}}$ 和对应的权值 ${{\lambda _k}}$ ， ${{\mu _l}}$ 确定。线性链条件随机场是对数线性模型。

3. CRF的简化形式

条件随机场参数化形式中同一特征在各个位置都有定义，可以对同一个特征在各个位置求和，将局部特征函数转化为

一个全局特征函数，这样就可以将条件随机场写成权值向量和特征向量的内积形式，即条件随机场的简化形式。

设有 ${K_1}$ 个转移特征， ${K_2}$ 个状态特征， $K = {K_1} + {K_2}$ ，如下所示：

${f_k}\left( {{y_{i - 1}},{y_i},x,i} \right) = \left\{ \begin{array}{l} {t_k}\left( {{y_{i - 1}},{y_i},x,i} \right),k = 1,2,...,{K_1} \\ {s_l}\left( {{y_i},x,i} \right),k = {K_1} + l;l = 1,2,...,{K_2} \\ \end{array} \right.$

然后对转移与状态特征在各个位置 $i$ 求和，如下所示：

${f_k}\left( {{\rm{y}},x} \right) = \sum\limits_{i = 1}^n {{f_k}} \left( {{y_{i - 1}},{y_i},x,i} \right),k = 1,2,...,K$

用 $w_{k}$ 表示特征 ${f_k}\left( {{\rm{y}},x} \right)$ 的权值，如下所示：

${w_k} = \left\{ \begin{array}{l} {\lambda _k},k = 1,2,...,{K_1} \\ {\mu _l},k = {K_1} + l;l = 1,2,...,{K_2} \\ \end{array} \right.$

于是条件随机场，如下所示：

$\begin{array}{l} P\left( {y|x} \right) = \frac{1}{{Z\left( x \right)}}\exp \left( {\sum\limits_{k = 1}^K {{w_k}{f_k}\left( {y,x} \right)} } \right) \\ Z\left( x \right) = \sum\limits_y {\exp \sum\limits_{k = 1}^K {{w_k}{f_k}\left( {y,x} \right)} } \\ \end{array}$

若以 $w$ 表示权值向量，即 $w = {\left( {{w_1},{w_2},...,{w_K}} \right)^T}$ 。以 $F\left( {y,x} \right)$ 表示全局特征向量，即

$F\left( {y,x} \right) = {\left( {{f_1}\left( {y,x} \right),{f_2}\left( {y,x} \right),...,{f_K}\left( {y,x} \right)} \right)^T}$ ，则条件随机场可以写成向量 $w$ 和 $F\left( {y,x} \right)$ 的内积形式，如下所示：

$\begin{array}{l} {P_w}\left( {y|x} \right) = \frac{{\exp \left( {w \cdot F\left( {y,x} \right)} \right)}}{{{Z_w}\left( x \right)}} \\ {Z_w}\left( x \right) = \sum\limits_y {\exp } \left( {w \cdot F\left( {y,x} \right)} \right) \\ \end{array}$

4. CRF的矩阵形式
假设 ${P_w}\left( {y|x} \right)$ 是给出的线性链条件随机场，表示对给定观测序列 $x$ ，相应的标记序列 $y$ 的条件概率。引进特殊的起点和

终点状态标记 ${{\rm{y}}_{\rm{0}}}{\rm{ = start,y}}{}_{{\rm{n + 1}}}{\rm{ = stop}}$ ，这时 ${P_w}\left( {y|x} \right)$ 可以通过矩阵形式表示。

对观测序列 $x$ 的每一个位置， $i = 1,2,...,n + 1$ ，定义一个 $m$ 阶矩阵（ $m$ 是标记 ${y_i}$ 取值的个数）。如下所示：

$\begin{array}{l} {M_i}\left( x \right) = \left[ {{M_i}\left( {{y_{i - 1}},{y_i}|x} \right)} \right] \\ {M_i}\left( {{y_{i - 1}},{y_i}|x} \right) = \exp \left( {{W_i}\left( {{y_{i - 1}},{y_i}|x} \right)} \right) \\ {W_i}\left( {{y_{i - 1}},{y_i}|x} \right) = \sum\limits_{i = 1}^K {{w_k}{f_k}} \left( {{y_{i - 1}},{y_i},x,i} \right) \\ \end{array}$

这样给定观测序列 $x$ ，标记序列 $y$ 的非规范化概率可以通过 $n+1$ 个矩阵的乘积 $\prod\nolimits_{i = 1}^{n + 1} {{M_i}\left( {{y_{i - 1}},{y_i}|x} \right)}$ 表示，于是条件概率

${P_w}\left( {y|x} \right)$ 如下所示：

${P_w}\left( {y|x} \right) = \frac{1}{{{Z_w}\left( x \right)}}\prod\nolimits_{i = 1}^{n + 1} {{M_i}\left( {{y_{i - 1}},{y_i}|x} \right)}$

其中， ${{Z_w}\left( x \right)}$ 为规范化因子，是 $n+1$ 矩阵的乘积的(start,stop)元素，如下所示：

${Z_w}\left( x \right) = {\left( {{M_1}\left( x \right){M_2}\left( x \right)...{M_{n + 1}}\left( x \right)} \right)_{{\rm{start,stop}}}}$

说明： ${{\rm{y}}_{\rm{0}}}{\rm{ = start,y}}{}_{{\rm{n + 1}}}{\rm{ = stop}}$ 表示开始状态与终止状态，规范化因子 ${{Z_w}\left( x \right)}$ 是以start为起点stop为终点通过状态的所有

路径 ${y_1}{y_2}...{y_n}$ 的非规范化概率 $\prod\nolimits_{i = 1}^{n + 1} {{M_i}\left( {{y_{i - 1}},{y_i}|x} \right)}$ 之和。

三. 条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场 $P\left( {Y|X} \right)$ ，输入序列 $x$ 和输出序列 $y$ ，计算条件概率

$P\left( {{Y_i} = {y_i}|x} \right),P\left( {{Y_{i - 1}} = {y_{i - 1}},{Y_i} = {y_i}|x} \right)$ 以及相应的数学期望的问题。

1. 前向-后向算法

对每个指标 $i = 0,1,...,n + 1$ ，定义前向向量 ${\alpha _i}\left( x \right)$ ，如下所示：

${\alpha _0}\left( {y|x} \right) = \left\{ \begin{array}{l} 1,y = {\rm{start}} \\ 0,{\rm{otherwise}} \\ \end{array} \right.$

递推公式为 ${\alpha _i}^T\left( {{y_i}|x} \right) = {\alpha _{i - 1}}^T\left( {{y_{i - 1}}|x} \right){M_i}\left( {{y_{i - 1}},{y_i}|x} \right),i = 1,2,...,n + 1$ ，即 ${\alpha _i}^T\left( x \right) = {\alpha _{i - 1}}^T\left( x \right){M_i}\left( x \right)$ 。

${\alpha _i}\left( {{y_i}|x} \right)$ 表示在位置 $i$ 的标记是 $y_{i}$ 并且到位置 $i$ 的前部分标记序列的非规范化概率， $y_{i}$ 可能的取值有 $m$ 个，所以 ${\alpha _i}\left( x \right)$ 是 $m$ 维

列向量。

同样对每个指标 $i = 0,1,...,n + 1$ ，定义后向向量 ${\beta _i}\left( x \right)$ ，如下所示：

${\beta _{n + 1}}\left( {{y_{n + 1}}|x} \right) = \left\{ \begin{array}{l} 1,{y_{n + 1}} = {\rm{stop}} \\ 0,{\rm{otherwise}} \\ \end{array} \right.$

递推公式为 ${\beta _i}\left( {{y_i}|x} \right) = {M_i}\left( {{y_i},{y_{i + 1}}|x} \right){\beta _{i - 1}}\left( {{y_{i + 1}}|x} \right)$ ，即 ${\beta _i}\left( x \right) = {M_{i + 1}}\left( x \right){\beta _{i + 1}}\left( x \right)$ 。

${\beta _i}\left( {{y_i}|x} \right)$ 表示在位置 $i$ 的标记是 $y_{i}$ 并且从 $i+1$ 到 $n$ 的后部分标记序列的非规范化概率。

由前向-后向向量定义得到 $Z\left( x \right) = {a_n}^{\rm{T}}\left( x \right) \cdot {\bf{1}} = {{\bf{1}}^{\rm{T}}} \cdot {\beta _1}\left( x \right)$ 。其中， ${\bf{1}}$ 是元素均为1的 $m$ 维列向量。

2. 概率计算

按照前向-后向向量定义，标记序列在位置 $i$ 是标记 $y_{i}$ 的条件概率和在位置 $i-1$ 与 $i$ 是标记 $y_{i-1}$ 和 $y_{i}$ 条件概率，如下所示：

$P\left( {{Y_i} = {y_i}|x} \right) = \frac{{{\alpha _i}^T\left( {{y_i}|x} \right){\beta _i}\left( {{y_i}|x} \right)}}{{Z\left( x \right)}}$

$P\left( {{Y_{i - 1}} = {y_{i - 1}},{Y_i} = {y_i}|x} \right) = \frac{{{\alpha _{i - 1}}^T\left( {{y_{i - 1}}|x} \right){M_i}\left( {{y_{i - 1}},{y_i}|x} \right){\beta _i}\left( {{y_i}|x} \right)}}{{Z\left( x \right)}}$

其中， $Z\left( x \right) = {a_n}^{\rm{T}}\left( x \right) \cdot {\bf{1}}$ 。

3. 期望值的计算

利用前向-后向向量，可以计算特征函数关于联合分布 $P\left ( X,Y \right )$ 和条件分布 $P\left ( Y|X \right )$ 的数学期望。特征函数 $f_{x}$ 关于条件分

布 $P\left ( Y|X \right )$ 的数学期望，如下所示：

$\begin{array}{l} E{}_{P\left( {Y|X} \right)}\left[ {{f_k}} \right] = \sum\limits_y {P\left( {y|x} \right)} {f_k}\left( {y|x} \right) \\ = \sum\limits_{i = 1}^{n + 1} {\sum\limits_{{y_{i - 1}}{y_i}} {{f_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} } \frac{{{\alpha _{i - 1}}^{\rm{T}}\left( {{y_{i - 1}}|x} \right){M_i}\left( {{y_{i - 1}},{y_i}|x} \right){\beta _i}\left( {{y_i}|x} \right)}}{{Z\left( x \right)}} \\ \end{array}$

其中， $k = 1,2,...,K$ ， $Z\left( x \right) = {a_n}^{\rm{T}}\left( x \right) \cdot {\bf{1}}$ 。

假设经验分布为 $\hat P\left( X \right)$ ，特征函数 $f_{x}$ 关于联合分布 $P\left ( X,Y \right )$ 的数学期望，如下所示：

$\begin{array}{l} E{}_{P\left( {X,Y} \right)}\left[ {{f_k}} \right] = \sum\limits_{x,y} {P\left( {x,y} \right)\sum\limits_{i = 1}^{n + 1} {{f_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} } \\ = \sum\limits_x {\hat P\left( x \right)\sum\limits_y {P\left( {y|x} \right)\sum\limits_{i = 1}^{n + 1} {{f_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} } } \\ = \sum\limits_x {\hat P\left( x \right)\sum\limits_{i = 1}^{n + 1} {\sum\limits_{{y_{i - 1}}{y_i}} {{f_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} } } \frac{{{\alpha _{i - 1}}^{\rm{T}}\left( {{y_{i - 1}}|x} \right){M_i}\left( {{y_{i - 1}},{y_i}|x} \right){\beta _i}\left( {{y_i}|x} \right)}}{{Z\left( x \right)}} \\ \end{array}$

其中， $k = 1,2,...,K$ ， $Z\left( x \right) = {a_n}^{\rm{T}}\left( x \right) \cdot {\bf{1}}$ 。

对于转移特征 ${t_k}\left( {{y_{i - 1}},{y_i},x,i} \right),k = 1,2,...,{K_1}$ ，可以将式中的 ${f_k}$ 换成 ${t_k}$ ；对于状态特征，可以将式中的 ${f_k}$ 换成 ${s_l}$ ，表示为

${s_l}\left( {yi,x,i} \right)$ ， $k = {K_1} + l,l = 1,2,...,{K_2}$ 。

对于给定的观测序列 $x$ 与标记序列 $y$ ，可以通过一次前向扫描 ${\alpha _i}$ 及 $Z\left( x \right)$ ，通过一次后向扫描计算 ${\beta _i}$ ，从而计算所有的概

率和特征的期望。

四. 条件随机场的学习算法

给定训练数据集估计条件随机场模型参数的问题，即条件随机场的学习问题。条件随机场模型实际上是定义在时序数

据上的对数线性模型，其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺

度法IIS、梯度下降法以及拟牛顿法。

1. 改进的迭代尺度法

已知训练数据集，由此可知经验概率分布 $\hat P\left( {X,Y} \right)$ 。可以通过极大化训练数据的对数似然函数来求模型参数。训练数

据的对数似然函数，如下所示：

$\begin{array}{l} L\left( w \right) = {L_{\hat P}}\left( {{P_w}} \right) = \log \prod\limits_{x,y} {{P_w}\left( {y|x} \right)} \hat P\left( {x,y} \right) \\ = \sum\limits_{x,y} {\hat P\left( {x,y} \right)\log } {P_w}\left( {y|x} \right) \\ = \sum\limits_{x,y} {\left[ {\hat P\left( {x,y} \right)\sum\limits_{k = 1}^K {{w_k}{f_k}\left( {y,x} \right)} {\rm{ - }}\hat P\left( {x,y} \right)\log {Z_w}\left( x \right)} \right]} \\ = \sum\limits_{j = 1}^N {\sum\limits_{k = 1}^K {{w_k}{f_k}\left( {{y_j},{x_j}} \right)} } - \sum\limits_{j = 1}^N {\log } {Z_w}\left( {{x_j}} \right) \\ \end{array}$

改进的迭代尺度法通过迭代的方法不断优化对数似然函数改变量的下界，达到极大化对数似然函数的目的。假设模型

的当前参数向量为 $w = {\left( {{w_1},{w_2},...,{w_K}} \right)^T}$ ，向量的增量为 $\delta = {\left( {{\delta _1},{\delta _2},...,{\delta _K}} \right)^T}$ ，更新参数向量为

$w + \delta = {\left( {{w_1} + {\delta _1},{w_2} + {\delta _2},...,{w_K} + {\delta _K}} \right)^T}$ 。在每步迭代过程中，改进的迭代尺度法通过依次求解转移特征 ${t_k}$ 和状态特征 ${s_l}$

更新方程，得到 $\delta = {\left( {{\delta _1},{\delta _2},...,{\delta _K}} \right)^T}$ 。

转移特征 ${t_k}$ 的更新方程，如下所示：

$\begin{array}{l} {E_{\hat P}}\left[ {{t_k}} \right] = \sum\limits_{x,y} {\hat P\left( {x,y} \right)} \sum\limits_{i = 1}^{n + 1} {{t_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} \\ = \sum\limits_{x,y} {\hat P\left( x \right)} P\left( {y|x} \right)\sum\limits_{i = 1}^{n + 1} {{t_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} \exp \left( {{\delta _k}T\left( {x,y} \right)} \right) \\ \end{array}$

状态特征 ${s_l}$ 的更新方程，如下所示：

$\begin{array}{l} {E_{\hat P}}\left[ {{s_l}} \right] = \sum\limits_{x,y} {\hat P\left( {x,y} \right)} \sum\limits_{i = 1}^{n + 1} {{s_l}\left( {{y_i},x,i} \right)} \\ = \sum\limits_{x,y} {\hat P\left( x \right)} P\left( {y|x} \right)\sum\limits_{i = 1}^n {{s_l}\left( {{y_i},x,i} \right)} \exp \left( {{\delta _{K + l}}T\left( {x,y} \right)} \right) \\ \end{array}$

其中， $k = 1,2,...,{K_1}$ ，。 $T\left( {x,y} \right)$ 是在数据 $\left( {x,y} \right)$ 中出现所有特征数的总和，如下所示：

$T\left( {x,y} \right) = \sum\limits_k {{f_k}\left( {y,x} \right)} = \sum\limits_{k = 1}^K {\sum\limits_{i = 1}^{n + 1} {{f_k}} \left( {{y_{i - 1}},{y_i},x,i} \right)}$

条件随机场模型学习的改进的迭代尺度法，如下所示：

输入：特征函数 ${t_1},{t_2},...,{t_{{K_1}}},{s_1},{s_2},...,{s_{{K_2}}}$ ；经验分布 $\hat P\left( {x,y} \right)$ ；

输出：参数估计值 $\hat w$ ；模型 ${P_{\hat w}}$ 。

（1）对所有 $k \in \left\{ {1,2,...,K} \right\}$ ，取初值 ${w_k} = 0$

（2）对，每一 $k \in \left\{ {1,2,...,K} \right\}$ ：

（a）当 $k = 1,2,...,{K_1}$ 时，令 ${\delta _k}$ 是方程 $\sum\limits_{x,y} {\hat P\left( x \right)} P\left( {y|x} \right)\sum\limits_{i = 1}^{n + 1} {{t_k}} \left( {{y_{i - 1}},{y_i},x,i} \right)\exp \left( {{\delta _k}T\left( {x,y} \right)} \right) = {E_{\hat P}}\left[ {{t_k}} \right]$ 的解。

当 $k = {K_1} + l,l = 1,2,...,{K_2}$ 时，令 ${\delta _{{K_1} + l}}$ 是方程 $\sum\limits_{x,y} {\hat P\left( x \right)} P\left( {y|x} \right)\sum\limits_{i = 1}^n {{s_l}} \left( {{y_i},x,i} \right)\exp \left( {{\delta _{{K_1} + l}}T\left( {x,y} \right)} \right) = {E_{\hat P}}\left[ {{s_l}} \right]$ 的解。

（b）更新 ${w_k}$ 值： ${w_k} \leftarrow {w_k} + {\delta _k}$

（3）如果不是所有 ${w_k}$ 都收敛，重复步骤（2）。

$T\left( {x,y} \right)$ 表示数据 $\left( {x,y} \right)$ 中的特征总数，对不同的数据 $\left( {x,y} \right)$ 取值可能不同。为处理这个问题，定义松弛特征，如下所示：

$s\left( {x,y} \right) = S - \sum\limits_{i = 1}^{n + 1} {\sum\limits_{k = 1}^K {{f_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} }$

其中， $S$ 是一个常数。选择足够大常数 $S$ 使得对训练数据集的所有数据 $\left( {x,y} \right)$ ， $s\left( {x,y} \right) \ge 0$ 成立。这时特征总数可取 $S$ 。

对于转移特征 ${t_k}$ ， ${\delta _k}$ 的更新方程，如下所示：

$\begin{array}{l} \sum\limits_{x,y} {\hat P\left( x \right)} P\left( {y|x} \right)\sum\limits_{i = 1}^{n + 1} {{t_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} \exp \left( {{\delta _k}S} \right) = {E_{\hat P}}\left[ {{t_k}} \right] \\ {\delta _k} = \frac{1}{S}\log \frac{{{E_{\hat P}}\left[ {{t_k}} \right]}}{{{E_P}\left[ {{t_k}} \right]}} \\ {E_P}\left[ {{t_k}} \right] = \sum\limits_x {\hat P\left( x \right)} \sum\limits_{i = 1}^{n + 1} {\sum\limits_{{y_{i - 1}},{y_i}} {{t_k}\left( {{y_{i - 1}},{y_i},x,i} \right)\frac{{{\alpha _{i - 1}}^{\rm{T}}\left( {{y_{i - 1}}|x} \right){M_i}\left( {{y_{i - 1}},{y_i}|x} \right){\beta _i}\left( {{y_i}|x} \right)}}{{Z\left( x \right)}}} } \\ \end{array}$

对于状态特征 ${s_l}$ ， ${\delta _k}$ 的更新方程，如下所示：

$\begin{array}{l} \sum\limits_{x,y} {\hat P\left( x \right)} P\left( {y|x} \right)\sum\limits_{i = 1}^n {{s_l}\left( {{y_i},x,i} \right)} \exp \left( {{\delta _{{K_1} + l}}S} \right) = {E_{\hat P}}\left[ {{s_l}} \right] \\ {\delta _{{K_1} + l}} = \frac{1}{S}\log \frac{{{E_{\hat P}}\left[ {{s_l}} \right]}}{{{E_P}\left[ {{s_l}} \right]}} \\ {E_P}\left[ {{s_l}} \right] = \sum\limits_x {\hat P\left( x \right)} \sum\limits_{i = 1}^n {\sum\limits_{{y_i}} {{s_l}\left( {{y_i},x,i} \right)\frac{{{\alpha _i}^{\rm{T}}\left( {{y_i}|x} \right){\beta _i}\left( {{y_i}|x} \right)}}{{Z\left( x \right)}}} } \\ \end{array}$

以上算法称为算法S，在算法S中需要使常数S取足够大，这样一来每步迭代的增量向量会变大，算法收敛会变慢。算

法T试图解决这个问题，算法T对每个观测序列 $x$ 计算其特征总数最大值 $T\left( x \right)$ ，即 $T\left( x \right) = \mathop {\max }\limits_y T\left( {x,y} \right)$ 。利用前向-后向递

推公式，可以很容易地计算 $T\left( x \right) = t$ 。

关于转移特征参数的更新方程，如下所示：

$\begin{array}{l} {E_{\hat P}}\left[ {{t_k}} \right] = \sum\limits_{x,y} {\hat P\left( x \right)} P\left( {y|x} \right)\sum\limits_{i = 1}^{n + 1} {{t_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} \exp \left( {{\delta _k}T\left( x \right)} \right) \\ = \sum\limits_x {\hat P\left( x \right)} \sum\limits_y {P\left( {y|x} \right)\sum\limits_{i = 1}^{n + 1} {{t_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} \exp \left( {{\delta _k}T\left( x \right)} \right)} \\ = \sum\limits_x {\hat P\left( x \right)} {a_{k,t}}\exp \left( {{\delta _k} \cdot t} \right) = \sum\limits_{t = 0}^{{T_{\max }}} {{a_{k,t}}{\beta _k}^t} \\ \end{array}$

其中， ${a_{k,t}}$ 是特征 $t_{k}$ 的期望值， ${\delta _k} = \log {\beta _k}$ 。 ${\beta _k}$ 是多项式方程唯一的实根，可用牛顿法求得，从而求得相关的 ${{\delta _k}}$ 。

关于状态特征参数的更新方程，如下所示：

$\begin{array}{l} {E_{\hat P}}\left[ {{s_l}} \right] = \sum\limits_{x,y} {\hat P\left( x \right)} P\left( {y|x} \right)\sum\limits_{i = 1}^n {{s_l}\left( {{y_i},x,i} \right)} \exp \left( {{\delta _{{K_1} + l}}T\left( x \right)} \right) \\ = \sum\limits_x {\hat P\left( x \right)} \sum\limits_y {P\left( {y|x} \right)\sum\limits_{i = 1}^n {{s_l}\left( {{y_i},x,i} \right)} \exp \left( {{\delta _{{K_1} + l}}T\left( x \right)} \right)} \\ = \sum\limits_x {\hat P\left( x \right)} {b_{l,t}}\exp \left( {{\delta _k} \cdot t} \right) = \sum\limits_{t = 0}^{{T_{\max }}} {{b_{l,t}}{\gamma _l}^t} \\ \end{array}$

其中， ${b_{l,t}}$ 是特征 ${s_l}$ 的期望值， ${\delta _l} = \log {\gamma _l}$ ， ${\gamma _l}$ 是多项式方程唯一的实根，可用牛顿法求得。

2. 拟牛顿法

条件随机场模型学习还可以应用牛顿法或拟牛顿法。条件随机场模型，如下所示：

$Pw\left( {y|x} \right) = \frac{{\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} } \right)}}{{\sum\limits_y {\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} } \right)} }}$

学习的优化目标，如下所示：

$\mathop {\min }\limits_{w \in {{\bf{R}}^{\rm{n}}}} f\left( w \right) = \sum\limits_x {\hat P\left( x \right)} \log \sum\limits_y {\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} } \right) - \sum\limits_{x,y} {\hat P\left( {x,y} \right)} } \sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)}$

梯度函数，如下所示：

$g\left( w \right) = \sum\limits_{x,y} {\hat P\left( x \right){P_w}\left( {y|x} \right)f\left( {x,y} \right) - {E_{\hat P}}\left( f \right)}$

条件随机场模型学习的BFGS算法，如下所示：

输入：特征函数 ${f_1},{f_2},...,{f_n}$ ；经验分布 $\hat P\left( {X,Y} \right)$ ；

输出：最优参数值 $\hat w$ ；最优模型 ${P_{\hat w}}\left( {y|x} \right)$ 。

（1）选定初始点 ${w^{\left( 0 \right)}}$ ，取 ${{\bf{B}}_0}$ 为正定对称矩阵，置 $k=0$

（2）计算 ${g_k} = g\left( {{w^{\left( k \right)}}} \right)$ 。若 ${g_k} = 0$ ，则停止计算；否则转（3）

（3）由 ${B_k}{p_k} = - {g_k}$ 求出 ${p_k}$

（4）一维搜索：求 ${\lambda _k}$ 使得 $f\left( {{w^{\left( k \right)}} + {\lambda _k}{p_k}} \right) = \mathop {\min }\limits_{\lambda \ge 0} f\left( {{w^{\left( k \right)}} + \lambda {p_k}} \right)$

（5）置 ${w^{\left( {k + 1} \right)}} = {w^{\left( k \right)}} + {\lambda _k}{p_k}$

（6）计算 ${g_{k + 1}} = g\left( {{w^{\left( {k + 1} \right)}}} \right)$ ，若 ${g_k} = 0$ ，则停止计算；否则， ${B_{k + 1}}$ 如下所示：

${B_{k + 1}} = {B_k} + \frac{{{y_k}{y_k}^{\rm{T}}}}{{{y_k}^{\rm{T}}{\delta _k}}} - \frac{{{B_k}{\delta _k}{\delta _k}^{\rm{T}}{B_k}}}{{{\delta _k}^{\rm{T}}{B_k}{\delta _k}}}$ ，其中 ${y_k} = {g_{k + 1}} - {g_k},{\delta _k} = {w^{\left( {k + 1} \right)}} - {w^{\left( k \right)}}$

（7）置 $k = k + 1$ ，转（3）。

五. 条件随机场的预测算法

条件随机场的预测问题是给定条件随机场 $P\left( {Y|X} \right)$ 和输入序列（观测序列） $x$ ，求条件概率最大的输出序列（标记序

列） ${y^*}$ ，即对观测序列进行标注。条件随机场的预测算法是著名的维特比算法。

$\begin{array}{l} {y^*} = \arg \mathop {\max }\limits_y {P_w}\left( {y|x} \right) = \arg \mathop {\max }\limits_y \frac{{\exp \left( {w \cdot F\left( {y,x} \right)} \right)}}{{{Z_w}\left( x \right)}} \\ = \arg \mathop {\max }\limits_y \exp \left( {w \cdot F\left( {y,x} \right)} \right) = \arg \mathop {\max }\limits_y \left( {w \cdot F\left( {y,x} \right)} \right) \\ \end{array}$

于是条件随机场的预测问题成为求非规范化概率最大的最优路径问题，如下所示：

$\mathop {\max }\limits_y \left( {w \cdot F\left( {y,x} \right)} \right)$

路径表示标记序列，如下所示：

$\begin{array}{l} w = {\left( {{w_1},{w_2},...,{w_K}} \right)^{\rm{T}}} \\ F\left( {y,x} \right) = {\left( {{f_1}\left( {y,x} \right),{f_2}\left( {y,x} \right),...,{f_K}\left( {y,x} \right)} \right)^{\rm{T}}} \\ {f_k}\left( {y,x} \right) = \sum\limits_{i = 1}^n {{f_k}\left( {{y_{i - 1}},{y_i},x,i} \right)} ,k = 1,2,...,K \\ \end{array}$

这时只需计算非规范化概率，而不必计算概率，可以大大提高效率。为了求解最优路径，将 $\mathop {\max }\limits_y \left( {w \cdot F\left( {y,x} \right)} \right)$ 写成形

式，如下所示：

$\mathop {\max }\limits_y \sum\limits_{i = 1}^n {w \cdot {F_i}\left( {{y_{i - 1}},{y_i},x} \right)}$

其中， ${F_i}\left( {{y_{i - 1}},{y_i},x} \right) = {\left( {{f_1}\left( {{y_{i - 1}},{y_i},x,i} \right),{f_2}\left( {{y_{i - 1}},{y_i},x,i} \right),...,{f_K}\left( {{y_{i - 1}},{y_i},x,i} \right)} \right)^{\rm{T}}}$ 是局部特征向量。

接下来叙述维特比算法，首先求出位置1的各个标记 $j = 1,2,...,m$ 的非规范化概率，如下所示：

${\delta _1}\left( j \right) = w \cdot {F_1}\left( {{y_0} = start,{y_1} = j,x} \right),j = 1,2,...,m$

根据递推公式，求出到位置 $i$ 的各个标记 $l = 1,2,...,m$ 的非规范化概率的最大值，同时记录非规范化概率最大值的路

径。如下所示：

${\delta _i}\left( l \right) = \mathop {\max }\limits_{1 \le j \le m} \left\{ {{\delta _{i - 1}}\left( j \right) + w \cdot {F_i}\left( {{y_{i - 1}} = j,{y_i} = l,x} \right)} \right\},l = 1,2,...,m$

${\psi _i}\left( l \right) = \arg \mathop {\max }\limits_{1 \le j \le m} \left\{ {{\delta _{i - 1}}\left( j \right) + w \cdot {F_i}\left( {{y_{i - 1}} = j,{y_i} = l,x} \right)} \right\},l = 1,2,...,m$

直到 $i=n$ 时终止，这时求得非规范化概率的最大值，如下所示：

$\mathop {\max }\limits_y \left( {w \cdot F\left( {y,x} \right)} \right) = \mathop {\max }\limits_{1 \le j \le m} {\delta _n}\left( j \right)$

最优路径的终点，如下所示：

${y_n}^* = \arg \mathop {\max }\limits_{1 \le j \le m} {\delta _n}\left( j \right)$

由此最优路径终点返回，如下所示：

${y_i}^* = {\psi _{i + 1}}\left( {{y_{i + 1}}^*} \right),i = n - 1,n - 2,...,1$

求得最优路径 ${y^*} = {\left( {{y_1}^*,{y_2}^*,...,{y_n}^*} \right)^{\rm{T}}}$ 。

条件随机场预测的维特比算法，如下所示：

输入：模型特征向量 $F\left( {y,x} \right)$ 和权值向量 $w$ ，观测序列 $x = \left( {{x_1},{x_2},...,{x_n}} \right)$ ；

输出：最优路径 ${y^*} = \left( {{y_1}^*,{y_2}^*,...,{y_n}^*} \right)$ 。

（1）初始化

${\delta _1}\left( j \right) = w \cdot {F_1}\left( {{y_0} = start,{y_1} = j,x} \right),j = 1,2,...,m$

（2）递推。对 $i = 2,3,...,n$ ，如下所示：

${\delta _i}\left( l \right) = \mathop {\max }\limits_{1 \le j \le m} \left\{ {{\delta _{i - 1}}\left( j \right) + w \cdot {F_i}\left( {{y_{i - 1}} = j,{y_i} = l,x} \right)} \right\},l = 1,2,...,m$

（3）终止

$\mathop {\max }\limits_y \left( {w \cdot F\left( {y,x} \right)} \right) = \mathop {\max }\limits_{1 \le j \le m} {\delta _n}\left( j \right)$

${y_n}^* = \arg \mathop {\max }\limits_{1 \le j \le m} {\delta _n}\left( j \right)$

（4）返回路径

${y_i}^* = {\psi _{i + 1}}\left( {{y_{i + 1}}^*} \right),i = n - 1,n - 2,...,1$

求得最优路径 ${y^*} = \left( {{y_1}^*,{y_2}^*,...,{y_n}^*} \right)$ 。

参考文献：

[1] 《统计学习方法》

[2] 漫步条件随机场系列文章：http://www.cnblogs.com/baiboy/p/crf1.html

[3] 如何轻松愉快地理解条件随机场：http://www.jianshu.com/p/55755fc649b1

[4] 如何推导条件随机场参数估计的全过程：https://www.zhihu.com/question/20380549

[5] 如何用简单易懂的例子解释CRF模型？它和HMM有什么区别？：https://www.zhihu.com/question/35866596

[6] 条件随机场教程：https://zhuanlan.zhihu.com/p/26696451

[7] 条件随机场介绍：https://zhuanlan.zhihu.com/p/25558273

阅读全文

1 0