语义解析：自然语言生成SQL与知识图谱问答实战最新章节_易显维著

1.3.3 KBQA数据集

本小节主要列举几个以SPARQL作为数据标注的代表性的数据集，如ComplexWebQuestions、QALD、LC-QUAD、WebQSP数据集。

1.ComplexWebQuestions

ComplexWebQuestions数据集是基于WebQSP（WebQuestionsSP）数据库建立的，使用场景包括知识图谱问答和阅读理解。首先根据WebQSP数据集的SPARQL语句相关模板进行扩展，形成模式化的复杂问句。然后通过人工方式对复杂问句进行转述，形成自然语言问句。此数据集的提出论文为“The web as a knowledge-base for answering complex questions”，数据集地址为https://www.tau-nlp.org/compwebq。

2.QALD

QALD是CLEF上的一个评测子任务，旨在评估基于链接数据的问答系统的质量，促进相关领域的进步。QALD数据集包含了复杂问题的语料库，其中约38%的问题都是复杂问题。通常复杂问题会涉及多个实体和关系，例如：“Which buildings in art deco style did Shreve，Lamb and Harmon design?”这类问句需要系统能够理解并回答问题。

同时，该数据集还包括一些具有时间先后关系、属性大小比较、查询最高级实体以及推理等方面的问题。为了解决这些问题，需要在链接数据的基础上开发问答系统，利用这些链接数据，通过推理和逻辑关系来回答问题。

3.LC-QUAD

LC-QUAD是一个基于DBpedia知识图谱的复杂问题数据集。其中，18%的问题是简单的单跳问题，例如：“哪些队参加了土耳其手球超级联赛并有吉祥物？”该数据集的构建方式比较独特。首先，使用一些SPARQL模板、一些种子实体和部分关联属性，通过DBpedia生成具体的SPARQL语句。其次，利用定义好的问句模板和SPARQL语句半自动地生成自然语言问题。最后，通过众包形成最终的标注问题。LC-QUAD 2.0使用同样的方法构建了一个更大、更多样的数据集。

4.WebQSP

WebQuestions及其衍生数据集是一个用于解决真实问题的数据集。它的问题来源于Google Suggest API，答案则由Amazon Mechanil Turk进行标注。虽然这是目前应用非常广泛的评测数据集之一，但它有两个问题。第一个问题是数据集中只有问答对，没有包含逻辑形式。第二个问题是简单问题占比约为84%，缺乏复杂的多跳和推理型问题。为了解决第一个问题，微软基于WebQuestions构建了WebQSP，为每一个答案标注了SPARQL查询语句，并去除了部分有歧义、意图不明或者没有明确答案的问题。为了解决第二个问题，微软构造了ComplexQuestions数据集，该数据集在WebQuestions的基础上，引入了类型约束、显式或隐式的时间约束、多实体约束、聚合类约束（最值和求和）等，并提供了逻辑形式的查询。

KBQA数据集的一些相关特性总结如表1-10所示。

表1-10 KBQA数据集