序列标注模型和分类器标注模型区别

来源：互联网发布：淘宝上买的车衣不耐用编辑：程序博客网时间：2024/04/17 02:54

Edwin Chen在介绍条件随机场的博文中，通过一个有趣的问题，引入条件随机场序列标注问题，我们这里不妨拿过来直接用一下：
假设你有一组关于 Justin Bieber的日常生活照（你可以想像成Bieber是个自拍狂，经常在朋友圈晒自拍），你想标注一下这些照片描绘的活动场景(比如Bieber是在吃饭、参加舞会、开车，还是在睡觉呢),你会怎么做呢？
一种方法是不考虑照片的发生先后关系，通过svm、决策树之类的分类方法，对每张照片单独分类。比如，你有事先标注的关于Bieber的一个月的日常生活照，你可以通过这些标注集训练一个分类器，通过这些标注集合，你可能得到一个这样的分类器：拍摄于晚上6点之后光线很暗的照片是在睡觉，拍摄于晚上灯光闪烁的照片是在参加舞会.....
通过上述方法虽然也能解决问题，但是会丢失一些信息，比如有一张照片是bieber嘴的一个特写，你怎么判断他是在吃法还是在唱歌呢？如果你能知道，这张照片的前一张是关于Bieber在做饭的照片，那这张嘴的特写照很可能就是在吃饭；反之，前一张照片是在参加舞会，那这张特写就更可能是在唱歌。
因此，为了提高照片标注的准确性，我们就需要参考相邻照片的标注，这就是序列标注问题，也是条件随机场能大显身手的场景。

当然，你也许会说我在训练分类器的时候也可以加上跟时间有关的特征，比如上面的例子，在训练分类器的时候，可以把标注集按时间排序，然后把每张图前后的图片的类别作为分类器特征，来训练分类器。但是仔细想下，就会发现其中的问题，你在用这些分类器模型预测上面例子中的问题时，你是不知道每张图片的前后相邻图片的类别的，它们也是需要预测的；那你可能又说，预测出第一张图片类别后，可以把这个图片的类别作为特征预测下一张，但是这样做引入的问题就是如果第一张预测错了，就会影响第二张的预测，即引起误差传递。而序列标注模型是把这一组照片的类别作为一个整体来预测，是这个整体预测准确率最高。

知乎上有人做了一下总结，我觉得总结的不错：

标注跟分类最大的区别就是：标注采的特征里面有上下文分类结果，这个结果你是不知道的，他在“分类”的时候是跟上下文一起"分类的"。因为你要确定这个词的分类得先知道上一个词的分类，所以这个得整句话的所有词一起解，没法一个词一个词解。

而分类是根据当前特征确定当前类别，分类的时候不需要考虑上下文的分类结果，但可以引入上下文的特征。

CRF与LSTM在序列标注问题上的不同：

作者：谢志宁
链接：https://www.zhihu.com/question/46688107/answer/117448674
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

两者各有优缺点：

LSTM：像RNN、LSTM、BILSTM这些模型，它们在序列建模上很强大，它们能够capture长远的上下文信息，此外还具备神经网络拟合非线性的能力，这些都是crf无法超越的地方，对于t时刻来说，输出层y_t受到隐层h_t（包含上下文信息）和输入层x_t（当前的输入）的影响，但是y_t和其他时刻的y_t`是相互独立的，感觉像是一种point wise，对当前t时刻来说，我们希望找到一个概率最大的y_t，但其他时刻的y_t`对当前y_t没有影响，如果y_t之间存在较强的依赖关系的话（例如，形容词后面一般接名词，存在一定的约束），LSTM无法对这些约束进行建模，LSTM模型的性能将受到限制。

CRF：它不像LSTM等模型，能够考虑长远的上下文信息，它更多考虑的是整个句子的局部特征的线性加权组合（通过特征模版去扫描整个句子）。关键的一点是，CRF的模型为p(y | x, w)，注意这里y和x都是序列，它有点像list wise，优化的是一个序列y = (y1, y2, …, yn)，而不是某个时刻的y_t，即找到一个概率最高的序列y = (y1, y2, …, yn)使得p(y1, y2, …, yn| x, w)最高，它计算的是一种联合概率，优化的是整个序列（最终目标），而不是将每个时刻的最优拼接起来，在这一点上CRF要优于LSTM。

HMM：CRF不管是在实践还是理论上都要优于HMM，HMM模型的参数主要是“初始的状态分布”，“状态之间的概率转移矩阵”，“状态到观测的概率转移矩阵”，这些信息在CRF中都可以有，例如：在特征模版中考虑h(y1), f(y_i-1, y_i), g(y_i, x_i)等特征。

CRF与LSTM：从数据规模来说，在数据规模较小时，CRF的试验效果要略优于BILSTM，当数据规模较大时，BILSTM的效果应该会超过CRF。从场景来说，如果需要识别的任务不需要太依赖长久的信息，此时RNN等模型只会增加额外的复杂度，此时可以考虑类似科大讯飞FSMN（一种基于窗口考虑上下文信息的“前馈”网络）。

CNN＋BILSTM＋CRF：这是目前学术界比较流行的做法，BILSTM＋CRF是为了结合以上两个模型的优点，CNN主要是处理英文的情况，英文单词是由更细粒度的字母组成，这些字母潜藏着一些特征（例如：前缀后缀特征），通过CNN的卷积操作提取这些特征，在中文中可能并不适用（中文单字无法分解，除非是基于分词后），这里简单举一个例子，例如词性标注场景，单词football与basketball被标为名词的概率较高，这里后缀ball就是类似这种特征。

BILSTM+CRF的Tensorflow版本：https://github.com/chilynn/sequence-labeling，主要参考了GitHub - glample/tagger: Named Entity Recognition Tool的实现，tagger是基于theano实现的，每一轮的参数更新是基于一个样本的sgd，训练速度比较慢。sequence-labeling是基于tensorflow实现的，将sgd改成mini-batch sgd，由于batch中每个样本的长度不一，训练前需要padding，最后的loss是通过mask进行计算（根据每个样本的真实长度进行计算）。

参考论文：

https://arxiv.org/pdf/1603.01360v3.pdf

https://arxiv.org/pdf/1603.01354v5.pdf

http://arxiv.org/pdf/1508.01991v1.pdf

阅读全文

0 0