购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 指令微调技术
模范一般的LoRA与P-Tuning

预训练—微调模式在处理复杂任务时尤其重要,预训练不仅为模型提供了一种丰富的特征理解,而且通过微调,使得外部知识可以应用到新的、但相关的问题上。这个过程类似于人类利用已有知识来解决新问题,减少了从零开始的重复工作。

在具体应用中,预训练模型可以显著减少开发时间和资源投入。例如,在医学成像分析中,预训练模型可以用来识别各种医学图像,而微调则允许它适应特定类型的图像或特定病症的识别。同样,在自然语言处理中,预训练模型已经证明了它们在各种语言任务上的有效性,包括文本分类和情感分析,以及如今的问答系统。

那么,我们如何在预训练大模型的基础上,继续微调以提高其对特定任务的适应性和精准度?首先,我们需要确定目标任务的特性和所需的数据类型。例如,如果目标是提高语言模型在特定行业术语上的理解,我们可能需要收集该行业的相关文本作为微调数据集。然后,我们需要使用这些定制的数据集来继续训练模型,在这个过程中可能会调整模型的参数,甚至可能改变模型的某些层,以更好地映射到目标任务上。

微调时通常使用监督学习,因此整个流程也称为有监督微调(Supervised Fine-Tuning)。我们会使用标注好的数据来指导模型的学习,以便它识别出与任务相关的细节和特征,即对模型进行增量学习,在保留预训练知识的同时,添加新的知识。在这个过程中,学习率通常设置得比预训练阶段低,以避免预训练时获得的知识被新的训练数据覆盖。

微调不仅是调整权重,有时还涉及模型架构的改变,如添加新的层或调整现有层的连接方式,以更好地适应特定的任务。此外,在微调过程中还可能会采用一些正则化技术来防止过拟合,确保模型在新的任务上能够保持良好的泛化能力。

通过在大规模数据上进行预训练,然后针对具体任务进行微调,我们能够创建既具有广泛知识又能够针对特定问题进行优化的模型。这种方法不仅提高了模型的灵活性和效率,还扩展了其应用范围,使大模型能够在更多领域发挥重要作用。

2.3.1 LoRA

低秩自适应(Low-Rank Adaptation,LoRA)是一种针对大型预训练语言模型(如GPT-3)的微调技术。LoRA的核心思想是通过对模型权重进行低秩更新,以实现有效的参数适应,而无须重新训练模型的全部参数。这种技术在保留预训练模型的泛化能力的同时,允许模型快速适应特定任务。

LoRA具有以下特点。

调整参数少: 在微调过程中,LoRA只调整模型的一小部分参数,这减少了存储和计算的需求。

低秩结构: LoRA通过引入低秩矩阵,对权重进行更新。这种结构允许在不显著增加参数总数的情况下,以紧凑的形式捕捉到权重变化的关键方面。

层次更新: LoRA通常针对模型的特定层(如自注意力层)进行更新,这使得更新更为集中和有效。

适应性强: LoRA允许模型快速适应新任务,无须对大量数据重新训练。

LoRA的工作流程如下。

(1)权重选择:首先确定模型中哪些权重是进行更新的候选对象。

(2)更新低秩矩阵:对选定的权重应用更新的低秩矩阵。低秩矩阵由两个较小的矩阵的乘积表示,这个乘积近似了原始权重矩阵的更新。

(3)冻结其他权重:在微调时,冻结其他权重,保持模型的其余权重不变。

(4)训练更新参数:训练更新的参数,在微调数据集上训练低秩矩阵更新的参数。

由于大模型的全量微调会带来巨大的计算和存储成本,因此通过LoRA技术,研究人员和开发人员可以在资源受限的情况下,实现对这些大模型的有效微调,增强其在某个特定领域的能力,因此,LoRA技术在实际算法开发中被广泛应用。

2.3.2 P-Tuning

前缀微调(Prefix Tuning,P-Tuning)是一种大模型指令微调技术,它利用可学习的提示词来适应特定的下游任务。与传统的微调方法相比,它不需要调整模型的所有参数。

P-Tuning技术的核心在于引入一组可学习的提示向量,这些向量作为任务特定的提示,被置于输入序列的前面。这些向量是唯一需要在微调过程中学习的参数,模型的主体参数保持不变,大大减少了参数更新的数量。通过训练这些提示向量来适应特定任务,P-Tuning能够引导模型生成期望的输出,从而提高特定任务的性能。

P-Tuning技术的工作经历以下四个步骤。

(1)初始化提示:为每个下游任务初始化一组提示向量作为提示。

(2)前置提示:在输入序列前添加这些提示。

(3)训练提示向量:在下游任务的数据集上训练这些提示向量,而不是模型的原始参数。

(4)生成输出:模型使用这些训练过的提示来理解和执行特定的任务。

P-Tuning适用于那些大型的、参数量巨大的语言模型。通过这种技术,即使是在资源受限的情况下,研究人员和开发人员也可以有效地利用大模型解决特定的NLP任务。

与其他微调技术(如LoRA)相比,P-Tuning提供了一种不同的参数调整方式,它在输入时进行调整,而不是直接修改模型的内部权重。这种技术的优势在于其简便性和效率,尤其是在微调需要较长时间或者计算成本很高的大模型时,这种技术比LoRA需要的训练时间和计算资源有显著减少。 RNtbGrEx8XD0+Iy4D8uq7m8B7YlF+URB9o+n/HOVaehTFNCggISmP91PeP7BzJ9c

点击中间区域
呼出菜单
上一章
目录
下一章
×