表1-5从数据来源、预训练方法和适用场景等方面总结了部分语义解析任务中比较有代表性的预训练模型。
语义解析的预训练任务不仅融入了非结构化文本常用的语言模型(例如MLM),还设计了合理的结构化融合方法,因而逐渐成为各大竞赛榜单常见的提分方式。
值得一提的是,随着算力的提升和数据量的与日俱增,使用更大规模的数据以及更多参数的模型架构进行预训练,在各类NLP子任务中逐渐成为主流。例如,拥有超过30亿(3B)参数的超大规模预训练模型——T5-3B模型在拥有较多“复杂且嵌套”SQL查询的Spider数据集和CoSQL数据集上大放异彩,迅速登顶排行榜顶端。这种现象似乎暗示了一种趋势:通过大规模语料、大参数预训练的方式,可以显著提升SQL生成场景下的小样本量场景的迁移能力,并且模型越大,准确率越高。在目前仍以深度学习为主的语义解析领域,这种趋势值得深思。
表1-5 语义解析中的预训练模型