新闻中文本地域信息标签的抽取
来源:互联网 发布:fgo阿尔托利亚技能数据 编辑:程序博客网 时间:2024/05/22 01:38
这里主要是基于规则的新闻地域提取方法,这里简要记录一下思路。
首先我们拥有了地域信息数据库,并且标注了省市的layer层信息。主要思路是利用nlp库,分词得到标有地名属性词,在于地域数据库匹配。
第一步,提取正文分词得到标注为地名的词语。
第二步,匹配地域数据库。
按照数据库的分类有
省:一级
市:二级
区、县:三级
算法伪代码:code指当前城市的key,pcode则是其上级城市的key。
case1:只出现一个,地域。->列出所有可能的<code,pcode> 例如只出现朝阳,则列出<朝阳,辽宁>,<朝阳,北京>
如果,分词出现,朝阳,北京,南京。则结果为<北京-朝阳> <江苏-南京>。
case2:多地域。
for1 依次循环遍历地域信息列表。
按照出现最多的地域,依次列出<code1,pcode1>,<code2 , pcode2>.....for2 循环所有的code1...code2...if (其它有地域的code等于此pcode)
则列出<code,pcode>。根据此pcode,查找ppcode.当下次for1循环遍历到此pcode的时候,continue略过。此过程会产出"code->code->code"格式 (为目表类型)。
else
列出自身code,pcode。
项目中使用了FudanNLP做的地名抽取换成其它库也ok,最终效果正确率90%以上。
0 0
- 新闻中文本地域信息标签的抽取
- Web中文信息抽取(1)
- Web中文信息抽取(2)
- 基于Gate的ANNIE插件的中文信息抽取
- Python中文文本信息抽取中常见的正则表达式
- 配置地域的信息 读取中文及其它语言文件文件时不乱码; 写utf-8格式文本文件
- 中文信息抽取技术初探索
- 利用Gate进行中文信息抽取时 不能识别Token.string=="中文"的问题
- 通用组、全局组、本地域组的区别
- 通用组、全局组、本地域组的区别
- 用户评论标签的抽取
- 修改input标签的placeholder中文本的颜色
- 来自麻省理工的信息抽取
- 来自麻省理工的信息抽取
- html标签“<textarea>”中文本对齐实现,让人蛋疼的知识
- 基于Gate的中文信息抽取API调用方式--未成功
- 中国地域信息联动下拉框的JS包
- php中获取ip的地域信息比较精准
- python第三方模块下载地址
- MySQL学习5
- mac关于java .bash_profile环境变量配置的问题
- asp.net mvc5 使用百度ueditor 本编辑器完整示例(上)
- JSONObject与JSONArray的使用
- 新闻中文本地域信息标签的抽取
- 单例模式
- 重装电脑遇到的问题(二)
- 【数组3】连续子数组的最大和
- 二分图的判定
- Android使用Fragment搭建界面框架(一)
- 389. Find the Difference [easy] (Python)
- Android 回退键的实现
- Mongodb使用总结