第二届百度&西安交通大学大数据竞赛

来源:互联网 发布:服装淘宝网店经营宗旨 编辑:程序博客网 时间:2024/04/26 15:39

赛题描述:

http://openresearch.baidu.com/online/artical.do?method=activityItemDetail&activityID=26eb630e-5839-452d-ad71-bf023a8d6327&navIndex=2


解题思路:

需要识别的实体是主语或者宾语,而主语宾语左右两边的词都是有固定词性。这里没采用分词工具,就直接提取训练数据中核心实体两旁的文字。如:

        遵义会议旧址,主要指召开遵义会议的那座小楼。

         遵义会议旧址 右边是:   ,主

         为保证前后均有标签,向前补充特殊字符(补充几个,由提取长度而定)  ︽︽遵义会议旧址,主要指召开遵义会议的那座小楼。   则 左边是:  ︽︽

         对训练数据遍历,提取所有标签(如:︽︽, ,主)。并统计出现的总次数A,及正确匹配的次数T。标签优先级设定为:T/(A+N)(N由自己设定,防止在训练集中仅出现一次,且刚好正确的标签优先级过高)。

         1.遍历测试数据,按标签优先级顺序匹配文本,提取核心实体。

         2.按标签优先级顺序匹配上一步生成的核心实体,对核心实心进一步提取,排除部分标签优先级顺序错误,及核心实体两边多重标签的影响。

         3.对上一步识别的核心实体过滤,筛选出不包含停用词,不是情感词汇等条件的核心实体作为关键词。对上一步提取的核心实体遍历,如果包含关键词,则关键词作为该句的核心实体。降低所提取标签种类过少的影响。

         4.对上一步识别的核心实体遍历,对包含停用词等条件的核心实体用长度更小的标签匹配,修改核心实体。

         5.对上一步识别的核心实体过滤,筛选出包含停用词长度超过本身长度a%等条件的核心实体作为错误识别。放松条件,对错误识别的句子重新用标签匹配,生成核心实体。


源码:

https://github.com/3ZY/baidu_word_Recognizer

0 0
原创粉丝点击