Amanda-Zhang
追梦女一枚

知识图谱入门(二)

2020-08-03 知识图谱
Word count: 1.2k | Reading time: 4min

本篇对知识图谱进行一些深入的了解,是对另一篇论文的分享,即徐增林老师的知识图谱技术综述,为上一篇论文进行一定的补充。

随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领域。尤其是在智能搜索中,用户的搜索请求不再局限于简单的关键词匹配,搜索将根据用户查询的情境与意图进行推理,实现概念检索。与此同时,用户的搜索结果将具有层次化、结构化等重要特征。例如,用户搜索的关键词为梵高,引擎就会以知识卡片的形式给出梵高的详细生平、艺术生涯信息、不同时期的代表作品,并配合以图片等描述信息。知识图谱能够使计算机理解人类的语言交流模式,从而更加智能地反馈用户需要的答案。与此同时,通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识,使信息资源更易于计算、理解以及评价,并且形成一套Web语义知识库。

三元组

三元组是知识图谱的一种通用表示方式,即G = (E,R,S),其中E = {e1,e2,…,e|E|}是知识库中的实体集合,共包含|E|种不同的实体;R{r1,r2,…r|E|}是知识库中的关系集合,共包含|R|种不同关系;S包含于E x R x E代表知识库中的三元组组合。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。

知识图谱补充知识

就覆盖范围而言,知识图谱也可分为通用知识图谱和行业知识图谱。通用知识图谱主要应用于智能搜索等领域。行业知识图谱通常需要依靠特定行业的数据来构建,具有特定的行业意义。

知识图谱的逻辑结构

知识图谱在逻辑上可分为模式层数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等。模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

知识图谱的体系架构在上一篇已经详细交代过,这里不再赘述。有需要的可以自行翻到上一篇笔记。

大规模知识库

下面将以开放链接知识库、行业知识库这两类主要的知识库类型为代表,详细说明其中的几个知名度较高的大规模知识库。

开放链接知识库

在LOD项目的云图中,Freebase、Wikidata、DBpedia、YAGO这4个大规模知识库处于绝对核心的地位,它们中不仅包含大量的半结构化、非结构化数据,是知识图谱数据的重要来源。而且具有较高的领域覆盖面,与领域知识库存在大量的链接关系。

垂直行业知识库

行业知识库也可称为垂直型知识库,这类知识库的描述目标是特定的行业领域,通常需要依靠特定行业的数据才能构建,因此其描述范围极为有限。比较典型的以MusicBrainz、IMDB、豆瓣等为代表。

Author: Amanda-Zhang

Link: http://chunchunya.github.io/2020/08/01/%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89/

Copyright: All articles in this blog are licensed under CC BY-NC-SA 3.0 unless stating additionally.

< PreviousPost
关系抽取
NextPost >
知识图谱入门
CATALOG
  1. 1. 三元组
  2. 2. 知识图谱补充知识
    1. 2.1. 知识图谱的逻辑结构
  3. 3. 大规模知识库
    1. 3.1. 开放链接知识库
    2. 3.2. 垂直行业知识库