在第2章中,我们了解了对于Transformer模型进行微调和评估需要的条件。现在我们来看看它们里面是如何工作的。在本章中,我们将探索Transformer模型的主要组成部分,以及如何使用PyTorch实现它们。我们还将提供关于如何在TensorFlow实现相同内容的指导。我们首先专注于构建注意力机制,然后添加必要的部分来使Transformer编码器起作用。我们还会简要地探讨编码器和解码器模块之间的架构差异。在本章结束时,你将能够自己实现一个简单的Transformer模型!
尽管深入理解Transformer架构对于使用Hugging Face Transformers库并微调模型以适用于你的用例通常不是必要的,但这有助于理解和应对Transformer的局限性,并在新领域中使用它们。
本章还将介绍一种Transformer分类法,帮助你理解近年来涌现的多种模型。在深入代码之前,我们先了解一下推动Transformer革命的最初架构。