大模型的效果评价是一个复杂且多维度的任务,涉及性能、准确性、效率、泛化能力、公平性和可解释性等多个方面。对于如GPT-4、文心一言、通义千问这样的大语言模型,有效的评价方法尤为重要。
在NLP领域,针对不同的任务有相应的评测方法,然而在大模型时代,单个的小数据集不足以评测通用大模型,同时大模型的回复也难以用准确度等指标进行量化。因此,当前我们采用多个数据集组成一个综合评测数据集。综合评测数据集通常包含一系列预定义的任务,评估模型在几个特定领域的表现,常见的评测集包括GLUE、SuperGLUE等。此种方案提供了一种统一和可比较的评价标准,但仅能覆盖一些常用的场景,无法覆盖所有场景。
随着技术的发展,大模型在一些简单NLP任务上的表现越来越好,且评测数据在网络上可以查询到,很可能出现在大模型的预训练数据集中,综合数据集评测的方案无法准确评价大模型的能力,现阶段出现了利用人类考题来评价的方案,如将基金考试题目用来测试大模型在金融领域的能力,使用代码问题来测试大模型在代码方面的能力。
那么,有了考试题目,谁来打分呢?在大模型发展初期,通常是领域专家对大模型的答案进行人工评价,此种方案相对可靠性高,但消耗人力较多,且不同专家的评判尺度难以统一。随着大模型技术的高速发展,使用大模型来评价大模型的方法出现了。我们可以使用GPT-4这种能力较强的通用大模型,或者一些专门用于评价大模型的领域大模型,对大模型进行自动化测试。