知识图谱的构建流程
来源:互联网 发布:php中str_replace函数 编辑:程序博客网 时间:2024/04/29 11:48
简单介绍关于知识图谱的构建的流程:
1. 数据来源:(数据层(Data Level)的构建)
百科类数据(Wikipedia半结构化, Freebase结构化),
结构化数据(DBpedia 和YAGO 等通用语义数据集,还包括如MusicBrainz 和DrugBank 等特定领域的知识库),
半结构化数据,自动化的AVP(属性-值对)抽取
以及搜索日志挖掘,发现最新出现的各种实体,基于Bootstrapping的多类别协同模式学习
Bootstrapping方法的过程:
- Given a hand of seed NEs of a category C:
- Learning context features of the seeds from queries
- Extracting new seed entities of category C using the learnt context features
- Expanding context features using the expanded seed set
#属性-值对(attribute-value pair,又称AVP)用来刻画实体的内在特性;而关系(relation)用来连接两个实体,刻画它们之间的关联
2. 从抽取图谱(Extraction Graphs)到知识图谱:
(1)实体对齐(Object Alignment),针对多种来源数据用聚类算法,关键在于定义合适的相似度度量
(2)知识图谱schema构建,相当于为其建立本体(Ontology),最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集。
自顶向下的方式是指通过本体编辑器(Ontology Editor)预先构建本体,本体构建不是从无到有的过程,而是依赖于从百科类和结构化数据得到的高质量知识中所提取的模式信息。
自底向上的方式则通过上面介绍的各种抽取技术,特别是通过搜索日志和Web Table抽取发现的类别、属性和关系,并将这些置信度高的模式合并到知识图谱中。合并过程将使用类似实体对齐的对齐算法。
(3)不一致性的解决。
优先采用那些可靠性高的数据源(如百科类或结构化数据)抽取得到的事实。
3. 知识图谱的挖掘:
(1)推理,针对属性;针对关系
(2)实体重要性排序,
当查询涉及多个实体时,搜索引擎将选择与查询更相关且更重要的实体来展示。实体的相关性度量需在查询时在线计算,而实体重要性与查询无关可离线计算,搜索引擎公司将PageRank算法 应用在知识图谱上来计算实体的重要性
(3)相关实体挖掘。使用主题模型(如LDA)发现虚拟文档集中的主题分布。其中每个主题包含1个或多个实体,这些在同一个主题中的实体互为相关实体。当用户输入查询时,搜索引擎分析查询的主题分布并选出最相关的主题。
4. 知识图谱的更新和维护。
(1)Type和Collection的关系
搜索引擎公司还通过自动化算法从各种数据源抽取新的类型信息,如果Collection中的某一种类型能够长期的保留,发展到一定程度后,由专业的人员进行决策和命名并最终成为一种新的Type。
(2)结构化站点包装器的维护
搜索引擎会定期检查站点是否存在更新,使用最新的站点包装器进行AVP抽取
(3) 知识图谱的更新频率
Type对应的实例往往是动态变化的
(4) 众包(Crowdsourcing)反馈机制
用户可以对搜索结果中展现的知识卡片所列出的实体相关的事实进行纠错。当很多用户都指出某个错误时,搜索引擎将采纳并修正
5.知识图谱在搜索中的应用
(1)查询理解
搜索引擎并非展现实体的全部属性,而是根据当前输入的查询自动选择最相关的属性及属性值来显示。当要展现的实体被选中之后,利用相关实体挖掘来推荐其他用户可能感兴趣的实体供进一步浏览
(2)问题回答
知识图谱对于搜索所带来的另一个革新是:直接返回答案,而不仅仅是排序的文档列表。
搜索引擎不仅要理解查询中涉及到的实体及其属性,更需要理解查询所对应的语义信息。搜索引擎通过高效的图搜索,在知识图谱中查找连接这些实体及属性的子图并转换为相应的图查询(如SPARQL )
SPARQL:是一种用于RDF上的查询语言http://www.w3.org/TR/rdf-sparql-query/
1 0
- 知识图谱的构建流程
- 大规模知识图谱的构建
- 知识图谱2-【浅谈知识图谱的构建技术】
- 知识图谱构建摸索
- 【构建知识图谱neo4j】
- 知识图谱构建摸索
- 知识图谱技术分享会----有关知识图谱构建的部分关键技术简介及思考
- 知识图谱构建技术综述
- 知识图谱构建技术综述
- 大规模知识图谱的构建、推理及应用
- 领域应用 | 中医临床知识图谱的构建与应用
- 知识图谱的应用
- 知识图谱的库
- 知识图谱的应用
- 知识图谱的应用
- 知识图谱的理解
- 知识图谱的应用
- 知识图谱的应用
- Xcode 7真机测试详解
- ARM Linux内核源码剖析——互动出版网
- Android studio获取证书指纹 (SHA1)的方法
- 有用的一些网站
- 请尝试启用“逐用户重定向”,或者使用提升的权限从命令提示符处注册该组件 错误解决
- 知识图谱的构建流程
- IPicture、BITMAP、HBITMAP和CBitmap的关系
- PyQt 如果异常未处理,抛入到事件循环,则无错误提示崩溃的解决方法
- codeforces #302 Destroying Roads (最短路径+暴力)
- MAVEN初学者遇到的问题
- ASCII码表
- Design Pattern 之 观察者模式
- ListView+CheckBox,实现批量删除与解决listview滚动checkBox选择状态絮乱
- Item-Based Recommendations with Hadoop