第二届百度&西安交通大学大数据竞赛
来源:互联网 发布:服装淘宝网店经营宗旨 编辑:程序博客网 时间:2024/04/26 15:39
赛题描述:
http://openresearch.baidu.com/online/artical.do?method=activityItemDetail&activityID=26eb630e-5839-452d-ad71-bf023a8d6327&navIndex=2
解题思路:
需要识别的实体是主语或者宾语,而主语宾语左右两边的词都是有固定词性。这里没采用分词工具,就直接提取训练数据中核心实体两旁的文字。如:
遵义会议旧址,主要指召开遵义会议的那座小楼。
遵义会议旧址 右边是: ,主
为保证前后均有标签,向前补充特殊字符(补充几个,由提取长度而定) ︽︽遵义会议旧址,主要指召开遵义会议的那座小楼。 则 左边是: ︽︽
对训练数据遍历,提取所有标签(如:︽︽, ,主)。并统计出现的总次数A,及正确匹配的次数T。标签优先级设定为:T/(A+N)(N由自己设定,防止在训练集中仅出现一次,且刚好正确的标签优先级过高)。
1.遍历测试数据,按标签优先级顺序匹配文本,提取核心实体。
2.按标签优先级顺序匹配上一步生成的核心实体,对核心实心进一步提取,排除部分标签优先级顺序错误,及核心实体两边多重标签的影响。
3.对上一步识别的核心实体过滤,筛选出不包含停用词,不是情感词汇等条件的核心实体作为关键词。对上一步提取的核心实体遍历,如果包含关键词,则关键词作为该句的核心实体。降低所提取标签种类过少的影响。
4.对上一步识别的核心实体遍历,对包含停用词等条件的核心实体用长度更小的标签匹配,修改核心实体。
5.对上一步识别的核心实体过滤,筛选出包含停用词长度超过本身长度a%等条件的核心实体作为错误识别。放松条件,对错误识别的句子重新用标签匹配,生成核心实体。
源码:
https://github.com/3ZY/baidu_word_Recognizer
- 第二届百度&西安交通大学大数据竞赛
- 狗狗识别-百度西安交通大学大数据比赛baseline=0.2代码
- 阿里巴巴大数据竞赛
- 阿里大数据竞赛
- 阿里大数据竞赛
- 阿里天池大数据竞赛
- 大数据竞赛技术分享
- 大数据竞赛中的xgboost
- JD-大数据竞赛心得
- Jdata大数据竞赛总结
- 百度大数据分享
- 第二届北师大程序设计竞赛
- 第二届北师大程序设计竞赛
- 第二届北师大程序设计竞赛
- 第二届北师大程序设计竞赛
- 第二届北师大程序设计竞赛
- 第二届北师大程序设计竞赛
- 第二届北师大程序设计竞赛
- 自定义checkstyle
- Bootstrap-Sass 源码解析三:Mixins
- IOS中十六进制的颜色转换为UIColor
- VC中程序提升管理员权限
- RocketMQ源码阅读
- 第二届百度&西安交通大学大数据竞赛
- linux下使用汇编语言编写hello world!程序
- 一款很炫的自定义卡片控件(A beautiful gift Cards for Android)
- linux线程池的C语言实现
- php的老兄传给客户端[object object]数据如何解析,但他坚称是json...
- Mac iOS Simulator录制Gif图
- PAT甲级.1035. Password (20)
- iOS目录结构简介
- 31. Next Permutation