语义网络和知识图谱

来源：互联网发布：淘宝优质家具卖家编辑：程序博客网时间：2024/04/23 16:16

1. 语义网洛

1.1 语义网络的定义

语义网洛的定义如下：The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation[1].

1.2 语义网洛的构成

1.2.1 基础层

主要包含Unicode和URI(Uniform Resource Identifier)。
Unicode是一种流行的字符集,采用两字节的全编码,可以表示65536个字符,这使得任何语言的字符都可以被机器容易地接受。
URI即通用资源标识符,用于唯一标识抽象或物理资源的简单字符串。网络上的任何资源包括HTML文档、程序、图片、音视频等都有一个能被URI编码的地址,从而实现对Web 资源的定位。

1.2.2 句法层

主要形式为XML，一种标准的元数据语法描述规范。为了便于程序或其他用户能够正确处理用户定义的内容,XML还定义了命名空间(Name Space)和XML模式规范(XML Schema),以提供更好地XML文档服务。

1.2.3 资源描述框架

主要存储Resource Description Framework(RDF),一种标准的元数据语义描述规范.RDF由三个部分组成:RDF Data Model、RDF Schema、RDF Syntax.
RDF的数据模型(RDF Data Model),提供了一个简单但功能强大的通过资源、属性及其相应值来描述特定资源模型。每一个数据模型可以看成是由节点和弧构成的有向图。所有被描述的资源以及用来描述资源的属性值都可以看做节点，属性看做边。由资源节点、属性和属性值组成的一个三元组叫做RDF陈述 (RDF Statement)。在模型中,陈述既可以作为资源节点,同时也可以作为值节点出现,所以一个模型中的节点有时不止一个。这时,用来描述资源节点的值节点本身还具有属性类和值,并可以继续细化。
RDF Schema是使用一种机器可以理解的体系来定义描述资源的词汇作用:定义资源以及属性的类别，定义属性所应用的资源类以及属性值的类型，定义上述类别声明的语法，申明一些由其它机构或组织定义的元数据标准的属性类
包括:
- 三个核心类:rdf:Resource,rdfs: Property,rdfs:Class
- 五个核心属性:rdf:type,rdfs: subClassOf,rdfs: seeAlso,rdfs: subPropertyOf,rdfs:isDefinedBy
- 四个核心约束:rdfs:ConstrantResource, rdfs:range, rdfs:ConstraintProperty, rdfs:domain

RDF Syntax构造了一个完整的语法体系以利于计算机的自动处理,它以XML为其宿主语言,通过XML语法实现对各种元数据的集成。

1.2.4 本体层

该层在RDF的基础上定义了RDFS(RDF Schema)和 OWL(Web Ontology Language),帮助用户构建应用领域相关的轻量级的本体。RDFS和OWL定义了语义,可以支持机器在用RDFS和OWL描述的知识库和本体中进行推理,以达到语义网的目标。
RDF模型的核心是用主体-谓词-客体的三元组来描述资源间的二元关系。通过RDFS能表示一些简单的本体,描述某些本体知识,包括子类和子属性关系、属性的定义域和值域约束以及类的实例等,但还缺少局部值域定义、类/属性/个体的等价性、不相交类、类的布尔结合、基数约束、关于属性特性的描述等。为此,W3C提出了OWL扩展RDF(S),既能支持合理有效的推理,又能对本体知识充分描述。
除此之外，为了更好的查询和推理，本体层有两种语言SPARQL和Rule languages。SPARQL是一种查询RDF的语言，用于事实的查询和提取。
Rule languages(Rule Interchange Format RIF)：Extend ontology languages with proprietary axioms and based on different types of logics. Using to enable reasoning over data to infer new knowledge.

1.2.5 逻辑层、验证层和信任层

逻辑层在前面各层的基础上进行逻辑推理操作。验证层根据逻辑陈述进行验证,以得出结论。信任层是语义网安全的组成部分,与加密不同的是,该层主要负责发布语义网所能支持的信任评估。目前第6层和第7层正处于设想阶段

1.3 知识工程科研项目

LOD2-Creating knowledge out of the Web
http://lod2.eu/Welcome.html
Read the Web-learned facts on the web
http://rtw.ml.cmu.edu/rtw/
KnowitAll
http://www.cs.washington.edu/research/knowitall/

1.4 知识工程工业项目

Waston-DeepQA
http://www.research.ibm.com/deepqa/deepqa.shtml
Knowledge graph-from information search to knowledge search
http://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html

2. 知识工程

2.1 知识建模

常用的知识建模的组织方式有
- 受控词表(Controlled vocabulary)
Controlled vocabularies provide a way to organize knowledge for subsequent retrieval(图书馆领域). They are used in subject indexing schemes, subject headings, thesauri, taxonomies and other forms of knowledge organization systems.
Controlled vocabulary schemes mandate the use of predefined, authorized terms that have been preselected by the designer of the vocabulary, in contrast to natural language vocabularies, where there is no restriction on the vocabulary.
- 叙词表(Thesaurus)
Thesaurus is a reference work that lists words grouped together according to similarity of meaning (containing synonyms and sometimes antonyms), in contrast to a dictionary, which provides definitions for words, and generally lists them in alphabetical order.
- 分类体系(Taxonomy)
Taxonomy is the practice and science of classification. It may refer to a classification of things or concepts, as well as to the principles underlying such a classification. For example, categories in Wikipedia and open directory project.
- 概念模型(Conceptual Model)
Conceptual Model is a model made of the composition of concepts, which are used to help people know, understand, or simulate a subject the model represents. Conceptual model represents the human intensions and semantics. Conceptualization maps observation of physical existence to concepts which convey semantics.
- 知识图谱
The Knowledge Graph is a system that understands facts about people, places and things and how these entities are all connected.

目前为止常用的知识图谱有
- SUMO
SUMO本体( suggested Upper Merged Ontology)的目标是建立高层独立于领域的本体,它使完全相异的系统可以使用一个共同的知识库。它是由标准顶级本体(Standard Upper Ontology,简称为“SUO”)研究组申请(2000年),IEEE赞助的开放资源标准。最初由Lan Niles和 Adam Pease开发,现在由Teknowledge Corporation维护。目的是详细定义一个顶级本体的语法和语义。SUMO是一个轻量级的本体,具有20,000个术语和60,000条公理。SUMO采用SUMO-KIF(Standard Upper Ontology Knowledge Interchange Format)语言进行描述,因此它所包括的概念和公理能被多数用户理解掌握,并且可以进行推理。
- OpenCyc
OpenCyc本体的目标是人工教给计算机一些常识。它是一个基于常识的、具有完整知识库的逻辑推理引擎,是专家驱动生成的本体,因此规模有限。具有239,000词项和2,093,000个三元组。它可以与外部知识库如WordNet、DBpedia、Wikicompany等建立同义链接,大概有69,000个这样的链接。
- WordNet
WordNet是为了对英语的自动文本分析和人工智能分析而设立的项目, 它是一个由普林斯顿大学认识科学实验室在心理学教授乔治•米勒的指导下建立和维护的。它的开发工作是从1985年开始的,由语言学专家和计算机工程师们联合设计的,目的是为自动的文本分析和人工智能应用提供支持。它是个包含英语词汇知识的英语字典,所有的唯一的名词、动词、形容词、副词共有147,278个。这个项目的WordNet主要关注词语之间的各种语义关系,共包含了11万英文词汇的词义,其中每一个词义都被表示为一个同义词的集合。它的每个单词(word)可能有多个不同的语义,对应不同的词义(sense)。而每个不同的语义又可能对应多个词 ,如topic和subject在某些情况下是同义的。除词义之外,WordNet中还记录了词义之间的共六种语义关系,分别是:“属于某类”(kind-of)关系(is-A)、“整体部分”(holonym)关系(part of))、“同义” (synonym)关系、“反义”(Antonymy)关系、“蕴含”( Entailment)关系、“动作的上下位”关系(Troponymy)这六种。
- DBpedia
DBpedia本体是由OpenLink20软件公司赞助的,由德国的一些研究人员从Wikipedia抽取结构化信息并将其以关联数据的形式共享在Web之上的数据集。它采用RDF语法表示和组织知识, 并支持基于SPARQL语法的知识查询。它有119种语言版本,其中英文数据集描述了400万个事情,48,293种属性关系和4.7亿个事实,具有1.8亿条指向YAGO、Wikipedia、RDF和网页的关联数据。它融合了包括Geonames、 MusicBrainz、World Factbook、DBLP Berlin Jamendo等在内的15种外部资源。
- YAGO
YAGO(Yet Another Great Ontology,YAGO)本体的目标是从维基中抽取结构体系。它是一个由德国马普所承担的知识库项目,它从三个资源(Wikipedia、WordNet、GeoNames16)中生成的。现在的最新的版本是YAGO2s17。它含有超过一千万的实体,包括人物、机构、城市等,有8618种二元关系,收集了超过1亿多个事实,它还赋予了这些事实以时间和空间维度的信息。人工标注结果显示YAGO具有非常高的准确率(95%的准确率)。它融合了WordNet的体系结构和Wikipedia丰富的类别系统,实体类别超过35万个。
- Freebase
Freebase本体是一种遵循知识共享协议的大规模结构化的开放共享数据集,是个类似Wikipedia的创作共享类网站,内容可由用户添加,采用创意共用许可证,可以自由引用。但是Freebase和Wikipedia之间最大的不同在于:Freebase中的条目都采用结构化数据的形式(这样为信息的查询和处理提供了巨大的方便)而Wikipedia不是。除了用户生成数据之外,它还包含了ChefMoz、NNDB和MusicBrainz等资源。它的每个实体赋予了能够唯一标识的ID标记.
- Probase
Probase的目标是使计算机具有概念和概念化的能力,从而能够理解人类的交流。有概念和概念化的能力是人类特有的特征。为了让计算机理解人类,需要给计算机一些常识。这些基本的常识包括:概念( concept,例如:emerging markets)、实例(instance,例如:China、India)、属性(attribute,例如:area、gdp、population)、属性值(value)、关系(relationship,例如:emerging market与 newly industrialized country有密切关系)。它有2,653,872个概念。这些概念是Probase自动获取的,是从数百万用户生成的数据中抽取出来的。除了拥有规模巨大的概念之外,Probase可以量化概念的不确定性。它的每一个声明(claim)都与一些概率有关。这些概率建模了每个声明的正确性、典型性、模糊性和其他特点。

2.2 知识抽取

具体详见信息抽取部分。

2.3 知识存储

基于内存的存储: Sesame Memory、OWLim、OWLJessKB.
基于传统数据库的方法：Jena,Sesame DB,DLDB-OWL,RStar,RDFSuite.
其它方法:Kowari,Hstar, Sysytem II.

2.4 知识的应用

实体链接
互联网语义搜索
基于知识库的问答系统
基于知识的行业大数据分析
例如影视大数据分析：基于知识图谱的影视元素关系挖掘:预测出凯文.史派西、大卫.芬奇和“BBC 出品”三种元素结合在一起的电视剧产品。
新闻数据分析

2.5 关于知识图谱的主要会议和期刊

国际会议
- WWW (World Wide Web)
- AAAI (Conference on AI )
- IJCAI (International joint conference on AI)
- ISWC (International Semantic Web Conference)
- SIGMOD (Management of Data)
- CIKM (Information and Knowledge Management )
- EKAW (Knowledge Engineering and Knowledge Management )
- KR (Principles of Knowledge Representation and Reasoning )
- K-CAP (International Conference on Knowledge Capture)

国际期刊
- TKDE
- Journal of Web Semantics
- AI Magazine
- Data & Knowledge Engineering

参考文献

[1] Berners-Lee T, Hendler J, Lassila O. The semantic web[J]. Scientific american, 2001, 284(5): 28-37.

阅读全文

0 0