关于CRF序列标注的一些理解

来源:互联网 发布:源mac地址有什么作用 编辑:程序博客网 时间:2024/05/06 10:26

  • 关于特征函数个数问题

crf的模板由U模板和B模板组成,故其总的特征函数个数 = U模板对应的特征函数个数 + B模板对应的特征函数个数

U模板对应的特征函数个数为:L*Nu,其中L为标签个数,Nu为从U模板扩展出来的独立字符串的个数
B模板对应的特征函数个数为:L*L*Nb,其中L为标签个数,Nb为从B模板扩展出来的独立字符串的个数

  • 转移概率问题

crf转移概率矩阵T的维度为L*L

转移概率矩阵T的值在crf模型文件中,对应于idB所在位置的连续L*L个权重值。在如下的模型文件中,所对应的位置即为:240~240+5*5-1(L=5)

version: 100cost-factor: 1maxid: 5485xsize: 1DEIDOTSTTHU00:%x[-2,0]U01:%x[-1,0]U02:%x[0,0]U03:%x[1,0]U04:%x[2,0]U05:%x[-2,0]/%x[-1,0]/%x[0,0]U06:%x[-1,0]/%x[0,0]/%x[1,0]U07:%x[0,0]/%x[1,0]/%x[2,0]U08:%x[-1,0]/%x[0,0]U09:%x[0,0]/%x[1,0]B240 B2850 U00:&195 U00:-1040 U00:/4925 U00:25105 U00:32150 U00:3个2405 U00:512950 U00:;

  • 关于从模板扩展出来的独立字符串前面的ID与权重矩阵的对应关系问题

下面模型文件中的ID从0开始,以L为间隔,标号不断增加。标号ID对应权重矩阵对应位置的L个权重。如:

195 U00:-  // 对应权重矩阵下标为195~199(L=5)

240 B2850 U00:&195 U00:-1040 U00:/4925 U00:25105 U00:32150 U00:3个2405 U00:512950 U00:;

未完待续。。。

0 0
原创粉丝点击