LTP分析说明

来源:互联网 发布:算日子软件 编辑:程序博客网 时间:2024/05/21 08:56

分词

中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。

例如,句子

国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。

正确分词的结果是

国务院/ 总理/ 李克强/ 调研/ 上海/ 外高桥/ 时/ 提出/ ,/ 支持/ 上海/ 积极/ 探索/ 新/ 机制/ 。

如果分词系统给出的切分结果是

国务院/ 总理/ 李克/ 强调/ 研/ 上海 …

因为强调也是一个常见的词,所以很可能出现这种分词结果。 那么,如果想要搜索和李克强相关的信息时,搜索引擎就很难检索到该文档了。

切分歧义是分词任务中的主要难题。 LTP的分词模块基于机器学习框架,可以很好地解决歧义问题。 同时,模型中融入了词典策略,使得LTP的分词模块可以很便捷地加入新词信息。

词性标注

词性标注(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。 其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。

国务院/ni 总理/n 李克强/nh 调研/v 上海/ns 外高桥/ns 时/n 提出/v ,/wp 支持/v 上海/ns 积极/a 探索/v 新/a 机制/n 。/wp

 

词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。 比方说,在抽取“歌曲”的相关属性时,我们有一系列短语:

儿童歌曲欢快歌曲各种歌曲悲伤歌曲...

如果进行了词性标注,我们可以发现一些能够描述歌曲属性的模板,比如

[形容词]歌曲[名词]歌曲

[代词]歌曲往往不是描述歌曲属性的模板。

词性标记集:LTP中采用863词性标注集,其各个词性含义如下表:

TagDescriptionExampleTagDescriptionExampleaadjective美丽niorganization name保险公司bother noun-modifier大型, 西式nllocation noun城郊cconjunction和, 虽然nsgeographical name北京dadverb很nttemporal noun近日, 明代eexclamation哎nzother proper noun诺贝尔奖gmorpheme茨, 甥oonomatopoeia哗啦hprefix阿, 伪ppreposition在, 把iidiom百花齐放qquantity个jabbreviation公检法rpronoun我们ksuffix界, 率uauxiliary的, 地mnumber一, 第一vverb跑, 学习ngeneral noun苹果wppunctuation,。!nddirection noun右侧wsforeign wordsCPUnhperson name杜甫, 汤姆xnon-lexeme萄, 翱

 

命名实体识别

命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地名、机构名等实体的任务。 如之前的例子,命名实体识别的结果是:

国务院 (机构名) 总理李克强 (人名) 调研上海外高桥 (地名) 时提出,支持上海 (地名) 积极探索新机制。

 

命名实体识别对于挖掘文本中的实体进而对其进行分析有很重要的作用。

命名实体识别的类型一般是根据任务确定的。LTP提供最基本的三种实体类型人名、地名、机构名的识别。 用户可以很容易将实体类型拓展成品牌名、软件名等实体类型。

依存句法分析

依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。 直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关 系。仍然是上面的例子,其分析结果为: 

从分析结果中我们可以看到,句子的核心谓词为“提出”,主语是“李克强”,提出的宾语是“支持上海…”,“调研…时”是“提出”的 (时间) 状语,“李克强”的修饰语是“国务院总理”,“支持”的宾语是“探索 新机制”。有了上面的句法分析结果,我们就可以比较容易的看到,“提出者”是“李克强”,而不是“上海”或“外高桥”,即使它们都是名词,而且距离“提出”更近。

依存句法分析标注关系 (共14种) 及含义如下:

关系类型TagDescriptionExample主谓关系SBVsubject-verb我送她一束花 (我 <-- 送)动宾关系VOB直接宾语,verb-object我送她一束花 (送 --> 花)间宾关系IOB间接宾语,indirect-object我送她一束花 (送 --> 她)前置宾语FOB前置宾语,fronting-object他什么书都读 (书 <-- 读)兼语DBLdouble他请我吃饭 (请 --> 我)定中关系ATTattribute红苹果 (红 <-- 苹果)状中结构ADVadverbial非常美丽 (非常 <-- 美丽)动补结构CMPcomplement做完了作业 (做 --> 完)并列关系COOcoordinate大山和大海 (大山 --> 大海)介宾关系POBpreposition-object在贸易区内 (在 --> 内)左附加关系LADleft adjunct大山和大海 (和 <-- 大海)右附加关系RADright adjunct孩子们 (孩子 --> 们)独立结构ISindependent structure两个单句在结构上彼此独立核心关系HEDhead指整个句子的核心

 

语义角色标注

语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。 仍然是上面的例子,语义角色标注的结果为: 

其中有三个谓词提出调研探索。以探索为例,积极是它的方式(一般用ADV表示),而新机制则是它的受事(一般用A1表示)

核心的语义角色为 A0-5 六种,A0 通常表示动作的施事,A1通常表示动作的影响等,A2-5 根据谓语动词不同会有不同的语义含义。其余的15个语义角色为附加语义角色,如LOC 表示地点,TMP 表示时间等。附加语义角色列表如下:

标记说明ADVadverbial, default tag ( 附加的,默认标记 )BNEbeneficiary ( 受益人 )CNDcondition ( 条件 )DIRdirection ( 方向 )DGRdegree ( 程度 )EXTextent ( 扩展 )FRQfrequency ( 频率 )LOClocative ( 地点 )MNRmanner ( 方式 )PRPpurpose or reason ( 目的或原因 )TMPtemporal ( 时间 )TPCtopic ( 主题 )CRDcoordinated arguments ( 并列参数 )PRDpredicate ( 谓语动词 )PSRpossessor ( 持有者 )PSEpossessee ( 被持有 )

 

各模块技术指标


分词

中文分词指的是将汉字序列切分成词序列的问题。 因为在汉语中,词是承载语义的最基本的单元,分词成了是包括信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。

由于在自然语言处理框架中的基础地位,很多学者对于中文分词任务进行了深入的研究。 主流的分词算法包括基于词典匹配的方法和基于统计机器学习的方法。 LTP分词模块使用的算法将两种方法进行了融合,算法既能利用机器学习较好的消歧能力,又能灵活地引入词典等外部资源。

在LTP中,我们将分词任务建模为基于字的序列标注问题。 对于输入句子的字序列,模型给句子中的每个字标注一个标识词边界的标记。

同时,为了提高互联网文本特别是微博文本的处理性能。我们在分词系统中加入如下一些优化策略:

  • 英文、URI一类特殊词识别规则
  • 利用空格等自然标注线索
  • 在统计模型中融入词典信息
  • 从大规模未标注数据中统计字间互信息、上下文丰富程度

 

分词模块在人民日报数据集上的性能如下

  • 准确率
 PRF开发集0.9731520.9724300.972791测试集0.9723160.9703540.972433
  • 运行时内存:119m
  • 速度:176.91k/s
  • CLP 2012 评测任务1:微博领域的汉语分词,第二名。

 

词性标注

与分词模块相同,我们将词性标注任务建模为基于词的序列标注问题。 对于输入句子的词序列,模型给句子中的每个词标注一个词性标记。 在LTP中,我们采用的北大标注集。

词性标注模块在人民日报数据集上的性能如下。

  • 语料信息:人民日报1998年2月-6月(后10%数据作为开发集)作为训练数据,1月作为测试数据。
  • 准确率:
     P开发集0.979621测试集0.978337
  • 运行时内存:291m
  • 速度:106.14k/s

 

命名实体识别

与分词模块相同,我们将命名实体识别建模为基于词的序列标注问题。对于输入句子的词序列,模型给句子中的每个词标注一个标识命名实体边界和实体类别的标记。在LTP中,我们支持人名、地名、机构名三类命名实体的识别。

基础模型在几种数据集上的性能如下:

  • 语料信息:人民日报1998年1月做训练(后10%数据作为开发集),6月前10000句做测试作为训练数据。
  • 准确率
    PRF开发集0.9241490.909323测试集0.9395520.936372
  • 运行时内存:21m

 

依存句法分析

基于图的依存分析方法由McDonald首先提出,他将依存分析问题归结为在一个有向图中寻找最大生成树(Maximum Spanning Tree)的问题。

在依存句法分析模块中,LTP分别实现了

  • 一阶解码(1o)
  • 二阶利用子孙信息解码(2o-sib)
  • 二阶利用子孙和父子信息(2o-carreras)

 

在LDC数据集上,三种不同解码方式对应的性能如下表所示。

model1o 2o-sib 2o-carreras  UasLasUasLasUasLasDev0.81900.78930.85010.82130.85820.8294Test0.81180.78130.84210.81060.84470.8138Speed49.4 sent./s 9.4 sent./s 3.3 sent./s Mem.0.825g 1.3g 1.6g 
  • SANCL 2012 互联网数据依存句法分析评测,第二、三名。
  • CoNLL 2009 句法和语义依存分析评测,中文依存句法分析第三名。

 

语义角色标注

 

在LTP中,我们将SRL分为两个子任务,其一是谓词的识别(Predicate Identification, PI),其次是论元的识别以及分类(Argument Identification and Classification, AIC)。对于论元的识别及分类,我们将其视作一个联合任务,即将“非论元”也看成是论元分类问题中的一个类别。在SRL系统中,我们在最大熵模型中引入L1正则,使得特征维度降至约为原来的1/40,从而大幅度地减小了模型的内存使用率,并且提升了预测的速度。同时,为了保证标注结果满足一定的约束条件,系统增加了一个后处理过程。

0 0
原创粉丝点击