本小节主要列举几个以SPARQL作为数据标注的代表性的数据集,如ComplexWebQuestions、QALD、LC-QUAD、WebQSP数据集。
ComplexWebQuestions数据集是基于WebQSP(WebQuestionsSP)数据库建立的,使用场景包括知识图谱问答和阅读理解。首先根据WebQSP数据集的SPARQL语句相关模板进行扩展,形成模式化的复杂问句。然后通过人工方式对复杂问句进行转述,形成自然语言问句。此数据集的提出论文为“The web as a knowledge-base for answering complex questions”,数据集地址为https://www.tau-nlp.org/compwebq。
QALD是CLEF上的一个评测子任务,旨在评估基于链接数据的问答系统的质量,促进相关领域的进步。QALD数据集包含了复杂问题的语料库,其中约38%的问题都是复杂问题。通常复杂问题会涉及多个实体和关系,例如:“Which buildings in art deco style did Shreve,Lamb and Harmon design?”这类问句需要系统能够理解并回答问题。
同时,该数据集还包括一些具有时间先后关系、属性大小比较、查询最高级实体以及推理等方面的问题。为了解决这些问题,需要在链接数据的基础上开发问答系统,利用这些链接数据,通过推理和逻辑关系来回答问题。
LC-QUAD是一个基于DBpedia知识图谱的复杂问题数据集。其中,18%的问题是简单的单跳问题,例如:“哪些队参加了土耳其手球超级联赛并有吉祥物?”该数据集的构建方式比较独特。首先,使用一些SPARQL模板、一些种子实体和部分关联属性,通过DBpedia生成具体的SPARQL语句。其次,利用定义好的问句模板和SPARQL语句半自动地生成自然语言问题。最后,通过众包形成最终的标注问题。LC-QUAD 2.0使用同样的方法构建了一个更大、更多样的数据集。
WebQuestions及其衍生数据集是一个用于解决真实问题的数据集。它的问题来源于Google Suggest API,答案则由Amazon Mechanil Turk进行标注。虽然这是目前应用非常广泛的评测数据集之一,但它有两个问题。第一个问题是数据集中只有问答对,没有包含逻辑形式。第二个问题是简单问题占比约为84%,缺乏复杂的多跳和推理型问题。为了解决第一个问题,微软基于WebQuestions构建了WebQSP,为每一个答案标注了SPARQL查询语句,并去除了部分有歧义、意图不明或者没有明确答案的问题。为了解决第二个问题,微软构造了ComplexQuestions数据集,该数据集在WebQuestions的基础上,引入了类型约束、显式或隐式的时间约束、多实体约束、聚合类约束(最值和求和)等,并提供了逻辑形式的查询。
KBQA数据集的一些相关特性总结如表1-10所示。
表1-10 KBQA数据集