《大模型入门：技术原理与实战应用》

2.3 指令微调技术
模范一般的LoRA与P-Tuning

预训练—微调模式在处理复杂任务时尤其重要，预训练不仅为模型提供了一种丰富的特征理解，而且通过微调，使得外部知识可以应用到新的、但相关的问题上。这个过程类似于人类利用已有知识来解决新问题，减少了从零开始的重复工作。

在具体应用中，预训练模型可以显著减少开发时间和资源投入。例如，在医学成像分析中，预训练模型可以用来识别各种医学图像，而微调则允许它适应特定类型的图像或特定病症的识别。同样，在自然语言处理中，预训练模型已经证明了它们在各种语言任务上的有效性，包括文本分类和情感分析，以及如今的问答系统。

那么，我们如何在预训练大模型的基础上，继续微调以提高其对特定任务的适应性和精准度？首先，我们需要确定目标任务的特性和所需的数据类型。例如，如果目标是提高语言模型在特定行业术语上的理解，我们可能需要收集该行业的相关文本作为微调数据集。然后，我们需要使用这些定制的数据集来继续训练模型，在这个过程中可能会调整模型的参数，甚至可能改变模型的某些层，以更好地映射到目标任务上。

微调时通常使用监督学习，因此整个流程也称为有监督微调（Supervised Fine-Tuning）。我们会使用标注好的数据来指导模型的学习，以便它识别出与任务相关的细节和特征，即对模型进行增量学习，在保留预训练知识的同时，添加新的知识。在这个过程中，学习率通常设置得比预训练阶段低，以避免预训练时获得的知识被新的训练数据覆盖。

微调不仅是调整权重，有时还涉及模型架构的改变，如添加新的层或调整现有层的连接方式，以更好地适应特定的任务。此外，在微调过程中还可能会采用一些正则化技术来防止过拟合，确保模型在新的任务上能够保持良好的泛化能力。

通过在大规模数据上进行预训练，然后针对具体任务进行微调，我们能够创建既具有广泛知识又能够针对特定问题进行优化的模型。这种方法不仅提高了模型的灵活性和效率，还扩展了其应用范围，使大模型能够在更多领域发挥重要作用。

2.3.1 LoRA

低秩自适应（Low-Rank Adaptation，LoRA）是一种针对大型预训练语言模型（如GPT-3）的微调技术。LoRA的核心思想是通过对模型权重进行低秩更新，以实现有效的参数适应，而无须重新训练模型的全部参数。这种技术在保留预训练模型的泛化能力的同时，允许模型快速适应特定任务。

LoRA具有以下特点。

调整参数少： 在微调过程中，LoRA只调整模型的一小部分参数，这减少了存储和计算的需求。

低秩结构： LoRA通过引入低秩矩阵，对权重进行更新。这种结构允许在不显著增加参数总数的情况下，以紧凑的形式捕捉到权重变化的关键方面。

层次更新： LoRA通常针对模型的特定层（如自注意力层）进行更新，这使得更新更为集中和有效。

适应性强： LoRA允许模型快速适应新任务，无须对大量数据重新训练。

LoRA的工作流程如下。

（1）权重选择：首先确定模型中哪些权重是进行更新的候选对象。

（2）更新低秩矩阵：对选定的权重应用更新的低秩矩阵。低秩矩阵由两个较小的矩阵的乘积表示，这个乘积近似了原始权重矩阵的更新。

（3）冻结其他权重：在微调时，冻结其他权重，保持模型的其余权重不变。

（4）训练更新参数：训练更新的参数，在微调数据集上训练低秩矩阵更新的参数。

由于大模型的全量微调会带来巨大的计算和存储成本，因此通过LoRA技术，研究人员和开发人员可以在资源受限的情况下，实现对这些大模型的有效微调，增强其在某个特定领域的能力，因此，LoRA技术在实际算法开发中被广泛应用。

2.3.2 P-Tuning

前缀微调（Prefix Tuning，P-Tuning）是一种大模型指令微调技术，它利用可学习的提示词来适应特定的下游任务。与传统的微调方法相比，它不需要调整模型的所有参数。

P-Tuning技术的核心在于引入一组可学习的提示向量，这些向量作为任务特定的提示，被置于输入序列的前面。这些向量是唯一需要在微调过程中学习的参数，模型的主体参数保持不变，大大减少了参数更新的数量。通过训练这些提示向量来适应特定任务，P-Tuning能够引导模型生成期望的输出，从而提高特定任务的性能。

P-Tuning技术的工作经历以下四个步骤。

（1）初始化提示：为每个下游任务初始化一组提示向量作为提示。

（2）前置提示：在输入序列前添加这些提示。

（3）训练提示向量：在下游任务的数据集上训练这些提示向量，而不是模型的原始参数。

（4）生成输出：模型使用这些训练过的提示来理解和执行特定的任务。

P-Tuning适用于那些大型的、参数量巨大的语言模型。通过这种技术，即使是在资源受限的情况下，研究人员和开发人员也可以有效地利用大模型解决特定的NLP任务。

与其他微调技术（如LoRA）相比，P-Tuning提供了一种不同的参数调整方式，它在输入时进行调整，而不是直接修改模型的内部权重。这种技术的优势在于其简便性和效率，尤其是在微调需要较长时间或者计算成本很高的大模型时，这种技术比LoRA需要的训练时间和计算资源有显著减少。

2.3 指令微调技术 模范一般的LoRA与P-Tuning

2.3.1 LoRA

2.3.2 P-Tuning

2.3 指令微调技术
模范一般的LoRA与P-Tuning