关于知识图谱的一些见解

来源:互联网 发布:数据建模经典教程 pdf 编辑:程序博客网 时间:2024/06/08 00:38
  • 知识图谱
  • 构建
  • 应用
  • 数据源
  • 参考文献与致谢
      这是暑假期间完成的一份报告,我把这个放到网上来和大家一起交流与学习。

一、知识图谱

  谈起知识图谱,要先从语义网络说起。语义网络是一个由相互连接的结点和边组成的结构,结点表示的是实体、属性、事件、状态等,边表示的是关系,例如isA, part-of等。在语义网络中,有两个比较重要的关系,即isA和AKO(a kind of)。知识图谱实际上是一种特殊的语义网络,它的节点代表实体、属性等,边代表关系,也是一个有图结构的知识库。
  相对于传统语义网络,知识图谱更加关注数据层面,并且区别subclass of和instance of的关系;内容通常通过众包获取,并且应用于语义搜索;运用最新的自然语言处理技术和语义技术;其强调的是实体之间的关联以及实体的属性值,且重要来源是百科。其构建强调不同来源知识的融合以及知识的清洗技术。
  与此同时,相对于关系型数据库,知识图谱属于“动态的”,因为关系型数据库在创建之前需要确定好有哪些列,一旦创建好改动起来就不太方便,而知识图谱可以根据获取的知识添加一些关系、属性,这是关系数据库所不具有的。

二、构建

  知识图谱的构建主要包括知识获取、知识融合、知识计算等部分。
2.1 知识获取
  一般知识图谱的知识来源有三种,即结构化知识、半结构化知识、非结构化知识。对于结构化数据,通常使用ETL工具对用户生成系统下的数据进行重新组织、清洗、检测;对于半结构化数据,通过包装器学习半结构数据的抽取规则;对于非结构化数据,则需要进行实体识别,包括实体链接(entity linking)命名实体识别(NER),以及实体关系识别等。
  从百度百科等类似网站的infobox等获取知识往往比较容易,可以直接获得属性-值,如下图。


百度百科-白马寺infobox

  往往非结构化知识才是知识图谱知识的主要来源。可以从一些正文文本中获取知识,如下图。但是获取知识往往需要利用固定的模板去抽取属性、关系等。

这里写图片描述
百度百科-白马寺 正文文本

  利用已有的知识库和实体链接(entity linking)技术,做一个链接。但是往往会遇到歧义性,即苹果可以指代苹果公司也可以指一种叫苹果的水果,可以利用主题或者上下文进行消歧。如果是知识库中没有的实体,还要使用命名实体识别(NER)技术,一般需要使用自然语言处理里的分词、词性标注等技术。命名实体识别的对象主要包括三大类,即实体类、时间类和数字类;以及七小类,即人名、地名、组织名、机构名、时间、日期、货币和百分比。
  而实体关系识别(entity relation detection)往往使用语义解析、依存分析等获取两个实体间的关系。或者使用统计学的方法,利用机器学习去做监督学习来识别实体的关系。

2.2 知识融合
  知识获取后需要做的工作就是要把知识进行融合,即知识融合(knowledge fusion)。
  利用数据映射技术建立本体中术语和不同数据源抽取知识中词汇的映射关系,将不同数据源的数据融合在一起。或者利用实体匹配(entity matching)将不同数据源相同实体的数据进行融合。知识图谱/本体存在着异构现象,表现在两个层次,包括语言层,即语法、逻辑、表达能力不匹配,与模型层异构,即概念化、解释不匹配。由于同义或者多义现象,而存在着挑战,往往在实体匹配时利用上下文等信息。
  目前的匹配方法有基于推理的匹配方法、基于实例对相似度的匹配、.基于机器学习的匹配方法等,但有着各自的缺陷。如基于相似度的匹配,往往复杂度很高。
  在讲习班中,基于分块的大规模实体匹配的方法巧妙地利用分块,将复杂度为O(N*N)的实体匹配变成了O(k*n*n)(k远大于n时,O(k*n*n)近似为线性复杂度),为在机器学习中处理大规模特征提供了借鉴的思路。

2.3 知识计算
  在知识计算中,可以利用本体或者规则推理去发现隐含的知识。其中,知识推理通常分为基于符号的推理和基于统计的推理,基于符号的推理通常基于经典逻辑(一阶谓词逻辑或者命题逻辑),而基于统计的推理通常使用机器学习方法,通过统计规律从知识图谱中学习到新的实体间关系。其中基于统计的推理方法包括实体关系学习方法、类型推理(type inference)方法和模型归纳(schema induction)方法。
  除此之外,用链接预测预测实体间隐含的关系;利用社会计算的不同算法在知识网络上计算获取知识图谱上存在的社区,提供知识间关联路径等。最终将抽取和推理的实体、属性、关系通过可视化的方法呈现出来,形成最终的知识图谱。

三、应用

3.1 提供精准用户画像,为精准营销系统提供潜在用户(推荐系统)

3.2 提供领域知识给专家系统提供决策数据,给律师、医生等提供辅助决策的意见

3.3是构成基于知识库的问答系统必不可少的部分

3.4利用自然语言进行语义搜索

3.5可视化分析,在情报分析领域的应用,如股票投研情报分析、公安情报分析、反欺诈情报分析等

四、数据源

4.1 DBpedia
  大规模的多语言百科知识图谱,结构化版的维基百科,使用固定模板抽取维基百科中的实体信息。包括127种语言,超过两千八百万个实体与数亿个RDF三元组。

4.2 Yago
  整合维基百科与WordNet的大规模本体,包括10种语言,约459万个实体,2400万个Facts。

4.3 Wikidata
  自由协作编辑的多语言百科知识库,包括350种语言,近2500万个实体及超过7000万的声明。

4.4 BabelNet
  目前世界范围内最大的多语言百科同义词典
271个语言版本,超过1400万个词目

4.5 ConceptNet
  大规模的多语言常识知识库,包括超过390万个概念,2800万个声明,拥有36种固定的关系。

4.6 Microsoft Concept Graph(Probase)
  大规模的英文Taxonomy,包括约530万个概念,1250万个实例,8500万个IsA关系。

4.7 Zhishi.me
  中文链接数据,包括约1000万个实体、一亿两万个RDF三元组。

4.8 Zhishi.Schema
  大规模中文模式知识库,包含subClassOf、equal、related,约40万个中文概念,150万RDF三元组。

4.9XLore
  大型的中英文知识图谱,包括66万个概念,5万个属性,1000万个实体。

五、参考文献与致谢

5.1 参考文献
  知识图谱研究进展
  On Publishing Chinese Linked Open Schema
  Zhishi.me-Weaving Chinese Linking Open Data

5.2致谢
  感谢东南大学计院组织的知识图谱暑期训练营!

原创粉丝点击