大型语言模型实战指南：应用实践与场景落地最新章节_刘聪著

1.4 大型语言模型评估

自ChatGPT模型问世以来，无论是在学术界还是在工业界，大型语言模型的研究越来越受欢迎。虽然大型语言模型可以很好地完成各种各样的任务，给我们的生活、工作带来了很大的便捷，但是大型语言模型在发展过程中依然存在一些潜在的风险，比如生成内容存在偏见和不公平性、误导性的虚假信息、冒犯性内容、泄露用户隐私、违反法律法规以及道德标准等风险。并且随着时间的发展，越来越多的大型语言模型在市面上涌现出来，因此，如何对大型语言模型进行评估就变得十分重要。由于大型语言模型往往具有较强的通用性，可以解决诸多问题，因此需要从多个层面来进行大型语言模型进行评价；并且大型语言模型生成内容往往具有多样性，采用简单的评价指标很难进行准确判断，因此需要从多个角度来进行评判。

本节主要介绍需要从哪些内容上来对大型语言模型进行评估、采用哪些方法来进行大型语言模型的评估以及目前大型语言模型的评估榜单。

1.4.1 大型语言模型的评估内容

目前对大型语言模型的评估可以从知识和能力层面、安全无害性层面、领域能力层面3个层面出发，对大型语言模型进行全面评估。

（1）知识和能力层面

大型语言模型是否可以理解并回复人类问题，主要依赖于大型语言模型掌握了多少知识内容以及对人类意图理解的能力。大型语言模型的知识和能力层面主要涉及解决传统NLP任务的能力、解决人类考试的能力、复杂推理的能力和使用工具的能力。

●传统NLP任务：在大型语言模型之前，我们一般在哪种任务上训练模型，就在哪种任务上测试该模型；但由于大型语言模型的强大能力，常常在不更新语言模型参数的前提下，仅通过给定的自然语言指示以及任务上的几个演示示例，就可以很好地解决特定的任务，并且可以达到很好的效果。因此在评价大型语言模型的知识和能力时，应该在传统NLP任务上进行模型的评估。其中，传统NLP任务主要包括情感分析任务、文本分类任务、信息抽取任务、问答任务、摘要任务、对话任务和机器翻译任务等。

●人类考试：目前大型语言模型效果十分惊人，明显可以感觉到仅通过常规的自然语言处理任务已无法很好地区分大型语言模型之间的差异。而考试是在社会中衡量一个人的知识、技能、能力或表现的重要手段。既然人类可以通过考试来进行区分比较，那么大型语言模型亦可如此，一般可以从不同科目的试题来衡量大型语言模型不同维度的能力，例如：社会科学类型题目可以测试大型语言模型对世界知识的了解程度，自然科学类型题目可以验证大型语言模型的推理能力。因此在评价大型语言模型的知识和能力时，应该在人类考试数据上进行模型的评估。其中，人类考试数据可以根据题目难度分为初中、高中、本科及以上，也可以根据题目形式分为客观题和主观题。

●复杂推理：大型语言模型的强大不仅仅是因为在常见任务上的效果优于之前的模型，而且是可以理解和有效地运用已有证据和逻辑框架来进行结论的推断或决策的优化。因此在评价大型语言模型的知识和能力时，应该在复杂推理任务上进行模型的评估。其中，推理类型包括常识推理任务、逻辑推理任务、多跳推理任务和数学推理任务等。

●工具使用：工具是人类文明和社会发展的关键组成部分，人类的智慧往往体现在创造、改进和有效的运用工具，从而解决各种问题、提高生产力、改善生活质量。目前大型语言模型已经可以模仿人类智能，通过执行工具来提高任务的最终呈现结果。因此在评价大型语言模型的知识和能力时，应该在工具使用任务上进行模型的评估。其中，工具使用包括单工具任务和多工具任务等。

（2）安全无害性层面

大型语言模型虽然表现出惊人的处理问题的能力，但由于受到数据本身或标注者的影响，生成文本可能会出现侮辱性、歧视性、不准确的内容；并且大型语言模型可能会在受到攻击情况下生成不良内容。因此，大型语言模型需要在安全无害性层面进行评估，以确保其在各种应用场景中的安全使用，主要涉及伦理道德评测、偏见评测、毒性评测、事实性评测、鲁棒性评测等。

●伦理道德评测：主要评估大型语言模型是否具有与人类相同的伦理价值且生成内容是否偏离道德标准，而伦理道德标准可以由专家定义、众包工作者建立或者人工智能辅助人工建立。

●偏见评测：主要评估大型语言模型是否会对社会中不同群体产生伤害和偏见，主要是对特定人群存在刻板印象或输出贬低性内容。

●毒性评测：主要评估大型语言模型是否会生成不尊重他人的、辱骂的、令人不快的或有害的内容。

●事实性评测：主要评估大型语言模型生成的内容是否准确，符合真实世界的客观事实。

●鲁棒性评测：主要评估大型语言模型在受到一定攻击的情况下，是否依然可以正常生成文本内容，并且内容安全无害。例如：在输入内容中加入拼写错误、近义词等噪音，在输入内容中加入不安全的指令主题等。

（3）领域能力层面

大型语言模型通常分为通用大型语言模型和领域大型语言模型。其中，领域大型语言模型一般都经过特定领域数据的微调，更加专注于特定领域的知识和应用。一般情况需要针对不同领域制定具有强行业属性的任务进行评估，以确保大型语言模型效果在行业中达到较为优异水平。例如：在医疗领域，评估大型语言模型在患者分诊、临床决策支持、医学证据总结等方面的能力；在法律领域，评估大型语言模型在合同审查、案例检索、判决预测等方面的能力。

1.4.2 大型语言模型的评估方法

自大型语言模型爆火之后，如何对其进行有效（高效而准确）的评估成为一个极具挑战性的难题。由于大型语言模型具有适用范围较广、生成内容极具多样性、可以很好地理解人类意图等特点，因此需要综合多方面因素来对大型语言模型进行评估。目前主要的评估方法分为自动评估法和人工评估法。

（1）自动评估法

自动评估法就是利用一些自动化的手段来评估大型语言模型，主要包括利用评估指标（例如准确率、精确度、召回率、F1值、困惑度、BLUE值、Rouge值等）打分和利用更强大的语言模型（通常采用GPT-4模型）打分。

在利用评估指标打分时，可以在传统NLP任务上对比大型语言模型输出内容与标准内容之间差异，最终得到分值。目前往往从人类角度来衡量大型语言模型，那么大型语言模型的做题能力是至关重要的指标，因此通常会将人类考试题转化成单项选择题、多项选择题、填空题，让大型语言模型进行解答，最终通过准确率、F1值、EM值来评估大型语言模型的能力。虽然人类试题可以衡量大型语言模型的好坏，但一些研究表明，候选答案的顺序对大型语言模型结果有着严重的影响，大型语言模型更喜欢偏前和偏后的选项，对中间的选项不敏感。

在利用更强大的语言模型（通常采用GPT-4模型）打分时，一般会制定一些评分标注来让GPT-4模型建立一个自己的评估体系（知道哪些内容会加分，哪些内容会减分），并给出一些评分演示示例供GPT-4模型参考，最终通过GPT-4模型给大型语言模型生成结果评分，其评分结果一般可以为是否制，也可以为积分制。目前有些研究表明，利用GPT-4模型给大型语言模型打分比人工打分的一致性要高；但由于GPT-4模型可能更喜欢偏长、有礼貌的答案，因此会造成评分的不准确性。

（2）人工评估法

人工评估法就是利用人工手段来评估大型语言模型，包括人工评价打分和人工对比打分。人工评价打分是从语言、语义以及知识等多个不同层面制定详细的评分标准，来对大型语言模型生成内容评分；人工对比打分则是人工比较两个大型语言模型生成内容的优劣，包括两个都好、两个都差、A模型比B模型好、B模型比A模型好，通过胜平率或者Elo评分来判断大型语言模型的好坏。但由于人的主观性和认知的差异性，往往在人工评估前需要对评估人员进行筛选和培训，使其明确评价标准和目标，保证最终评估结果的一致性。

自动评估法和人工评估法各有优点和局限性，自动评估法的优点包括速度快、客观性、可重复性和成本效益，但可能不够准确，尤其在处理复杂或非标准任务时，依赖于标准指标，不一定适用于所有任务。人工评估法可以提供更深入的理解和细节反馈，但成本高、耗时长，而且存在主观性和一致性的问题。

1.4.3 大型语言模型评估榜单

随着时间的推移，市面上的大型语言模型越来越多，如何判断哪个大型语言模型效果更加优异，我们在应用落地时选择哪个大型语言模型更加合适呢？为了让大型语言模型的效果更加直观，目前出现了很多大型语言模型的评估榜单，一些是自动化测试榜单，一些是人工测试榜单，一些是单数据榜单，一些是多数据综合榜单。目前单数据榜单除了传统NLP榜单之外，还包括MMLU榜单、ARC榜单、C-Eval榜单、AGIEval榜单、GA-OKAO-Bench榜单、SuperCLUE榜单、Xiezhi榜单和LLMEVAL榜单等。

●MMLU是由伯克利加州大学等提出的，包含STEM（科学、技术、工程、数学）、人文科学、社会科学等57个学科，涉及传统领域（数学、物理、化学、历史等）和专业领域（法律、道德、经济、外交等），难度覆盖小学、高中、大学以及专业级，不仅考验大型语言模型对世界知识的记忆与理解，还考验大型语言模型解决问题的能力。数据集是由本科生和研究生手动收集的，共包含15 908道多选题，分为少样本开发集、验证集和测试集。其中，少样本开发集中的每个学科涉及5条数据；验证集由1540条数据组成，用于模型超参调节；测试集由14 079条数据组成，每个学科至少100条数据，详细如表1-18所示。

表1-18 MMLU榜单的学科统计表

●ARC是由艾伦人工智能研究所提出的，包含3到9年级科学考试的多项选择题，题目中绝大多数包含4个选项，并分为简单难度（5197道）和挑战难度（2590道）两种。其中，挑战难度的题目无法通过关键词检索和共现法获得答案，通常需要模型具有更强的推理能力。

●C-Eval是由上海交大等提出的，与MMLU榜单类似，不过C-Eval主要用于大型语言模型中文能力的评估，包括13 948个多项选择题，涵盖了STEM（科学、技术、工程、数学）、人文科学、社会科学、其他等52个学科，难度覆盖初中、高中、大学以及专业级，详细如表1-19所示。为了防止大型语言模型的训练集中混入评测数据，C-Eval的测试数据大多来源于PDF格式和Word格式的模拟试题，题目一般需要进行人工清洗才可以使用。C-Eval在部分学科中还提供了困难数据集，为了验证大型语言模型的高级推理能力。

表1-19 C-Eval榜单的学科及样本数量统计表

（续）

●AGIEval是由微软提出的，用于在以人为中心的标准化考试背景下评估大型语言模型，包括普通入学考试（高考和美国SAT）、法学院入学考试、数据竞赛、律师资格考试和公务员考试等19个子类。AGIEval评估数据包含中文和英文两种语言，主要由8062个样本组成。

●GAOKAO-Bench是由复旦大学提出的，由2010年到2022年近13年中国全国高考题目组成，其中客观题（选择题）有1781道、主观题（填空题和解答题）有1030道。客观题部分采用自动化评分策略，主观题部分采用专家评分策略，并且测试分为理科（包括语文、英语、理科数学、物理、化学、生物）和文科（包括语文、英语、文科数学、政治、历史、地理），可以用于分析大型语言模型更偏向于哪一种。

●SuperCLUE是一个中文通用大模型综合性测评基准，评测榜单包含3个部分：模型对战评分、客观题评分和主观题评分。其评测能力包括语言理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演和安全，并且针对中文特性从字形与拼音、字义理解、句法分析、文学、诗词、成语、歇后语与谚语、方言、对联和古文等多个方面进行针对性评估。评测机制为黑盒评测，目前每个月会更新一次榜单。

●Xiezhi是由复旦大学提出的，包含哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学13个类学科的249 587道试题，并提供了单一领域数据和交叉领域数据来进一步区分大型语言模型的能力。

●LLMEVAL是由复旦大学提出的，针对中文大型语言模型进行评测，目前包含3期。LLMEVAL-1包含17个大类的453个问题，包括事实性问答、阅读理解、框架生成、段落重写、摘要、数学解题、推理、诗歌生成、编程等各个领域，主要从正确性、流畅性、信息量、逻辑性和无害性5个角度进行评估。LLMEVAL-2包含12个学科的480题领域知识测试集，对每个学科领域题目包含单项选择题和问答题两种。其中每个学科25～30道客观题，10～15道主观题。单项选择题从正确性和解释正确性两个角度评分，主观题从正确性、流畅性、信息量和逻辑性资格角度评分。LLMEVAL-3聚焦于专业知识能力评测，涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类，共计约20万道标准生成式问答题目，利用GPT-4模型从回答正确性和解释正确性两个角度评分。

为了验证大型语言模型多方面的效果，目前还有一些多数据榜单，主要包括Open LLM Leaderboard榜单、OpenCompass榜单和FlagEval榜单。

●Open LLM Leaderboard由Hugging Face提出，主要针对英文开源大型语言模型进行评测，评测数据集主要包括ARC、HellaSwag、MMLU以及TruthfulQA。

●FlagEval榜单由智源提出，包含22个主观和客观评测集的84 433道评测题目，主要涉及选择式问答、文本分类和开放式问答3种，并从准确性、不确定性、鲁棒性和效率4个角度进行评估。其中，客观题通过自动评估方式评测，主观题由GPT-4模型评估和人工多人背靠背标注加第三人仲裁方式评估。

●OpenCompass榜单由上海人工智能实验室提出，从学科、语言、知识、理解和推理5个层面进行大型语言模型能力评估，其中，学科层面包括C-Eval、AGIEval、MMLI、GAOKAO-Bench、ARC等；语言层面包括WiC、CHID、AFQMC、WSC、TyDiQA、Flores等；知识层面包括BoolQ、CommonSenseQA、NaturalQuestions、TriviaQA等；理解层面包括C3、RACE、OpenbookQA、CSL、XSum等；推理层面包括CMNLI、OCNLI、RTE、HellaSwag、GSM8K、MATH等。