第二届百度&西安交通大学大数据竞赛

来源：互联网发布：服装淘宝网店经营宗旨编辑：程序博客网时间：2024/04/26 15:39

赛题描述：

http://openresearch.baidu.com/online/artical.do?method=activityItemDetail&activityID=26eb630e-5839-452d-ad71-bf023a8d6327&navIndex=2

解题思路：

需要识别的实体是主语或者宾语，而主语宾语左右两边的词都是有固定词性。这里没采用分词工具，就直接提取训练数据中核心实体两旁的文字。如：

遵义会议旧址，主要指召开遵义会议的那座小楼。

遵义会议旧址右边是：，主

为保证前后均有标签，向前补充特殊字符（补充几个，由提取长度而定）︽︽遵义会议旧址，主要指召开遵义会议的那座小楼。则左边是：︽︽

对训练数据遍历，提取所有标签（如：︽︽, ，主）。并统计出现的总次数A，及正确匹配的次数T。标签优先级设定为：T/(A+N)（N由自己设定，防止在训练集中仅出现一次，且刚好正确的标签优先级过高）。

1.遍历测试数据，按标签优先级顺序匹配文本，提取核心实体。

2.按标签优先级顺序匹配上一步生成的核心实体，对核心实心进一步提取，排除部分标签优先级顺序错误，及核心实体两边多重标签的影响。

3.对上一步识别的核心实体过滤，筛选出不包含停用词，不是情感词汇等条件的核心实体作为关键词。对上一步提取的核心实体遍历，如果包含关键词，则关键词作为该句的核心实体。降低所提取标签种类过少的影响。

4.对上一步识别的核心实体遍历，对包含停用词等条件的核心实体用长度更小的标签匹配，修改核心实体。

5.对上一步识别的核心实体过滤，筛选出包含停用词长度超过本身长度a%等条件的核心实体作为错误识别。放松条件，对错误识别的句子重新用标签匹配，生成核心实体。

源码：

https://github.com/3ZY/baidu_word_Recognizer

0 0