从零构建大模型：算法、训练与微调最新章节_梁楠著

2.2　GPT模型的文本生成过程

本节将深入解析GPT模型的文本生成过程，揭示其生成机制及实现方法。在生成过程中，选择合适的解码策略至关重要，因此，本节还将介绍Greedy Search和Beam Search两种常用的解码算法。

2.2.1　详解GPT-2文本生成过程

在GPT-2的文本生成过程中，模型通过自回归方式逐步生成下一个词，每一步都基于前序词汇的上下文信息。生成过程从给定的起始文本或提示词（Prompt）开始，将其编码并传递给模型；模型通过自注意力机制捕捉上下文依赖关系，进而计算出每个词的生成概率。

然后，选择生成概率最高的词作为输出，并将其加入上下文，用于下一步的生成。这一过程循环往复，直到达到预设的文本长度或遇到终止符号。GPT-2模型中的单向注意力确保每个位置的词只能关注到它之前的内容，从而保证了生成任务的顺序性。

以下代码将展示GPT-2文本生成的过程，从初始提示词开始，逐步生成完整的文本。

代码解析如下：

（1）GPT2TextGenerator：构建了GPT-2文本生成的核心模块，包含词嵌入和位置嵌入层。generate方法实现了逐步生成文本的过程，它将生成的词逐步加入上下文并重复预测下一个词。

（2）GPT2Block：定义GPT-2的基础块，包含自注意力机制和前馈神经网络，通过单向自注意力机制确保每个词只能关注到它之前的词。

（3）文本生成过程：从初始提示词开始，通过循环调用generate方法，逐步生成文本。每次生成的词通过词嵌入和位置嵌入进行编码，再经过多层Transformer处理得到下一个词的概率分布，最终选取概率最大的词作为生成词。

（4）解码生成文本：使用简单的词汇解码函数将生成的词汇索引序列转换为文本，展示生成文本的可读性。

代码运行结果如下：

     生成的文本序列: [1, 345, 876, 238, 1095, 358, 302]
     解码的生成文本: <token_1> <token_345> <token_876> <token_238> <token_1095> <token_358>
<token_302>

结果解析如下：

（1）生成的文本序列：展示了GPT-2从起始词开始生成的词汇索引序列，基于前序词汇和上下文信息生成每一步的词。

（2）解码的生成文本：将生成的索引序列解码为可读文本，显示GPT-2模型通过自回归生成方式实现文本的连贯性。

2.2.2　Greedy Search和Beam Search算法的实现与对比

在文本生成任务中，解码策略直接影响生成质量。Greedy Search和Beam Search是两种常用的解码方法。Greedy Search每次选择最高概率的词生成，虽然简单高效，但可能导致局部最优，生成的文本质量欠佳。而Beam Search在每一步中保留多个候选路径（称为“束宽”），在生成过程的最终阶段选择最优路径，从而提高生成的多样性和流畅度。Beam Search因保留了多条候选序列，所以计算复杂度高于Greedy Search，但生成质量往往更高。

可以把Greedy Search和Beam Search算法比作两个人拿着篮子挑选水果，要想办法挑选出一篮“最好吃的水果组合”来吃。

1．Greedy Search：只挑选当下看起来“最好的水果”

Greedy Search每次挑水果的时候都很着急，只选当下看起来“最甜的水果”放进自己的水果篮。比如，先看到一个甜的苹果就拿上，再看到香蕉也拿上，直到选满。这种方法很简单，速度也很快，但是往往因为太专注于眼前，而导致最后装满的水果篮并不是最理想的组合，有可能只挑到了甜味单一的水果组合，而错过了可能“更好吃的组合”。

2．Beam Search：保留多个可能的选择，选出一组“最搭配的水果组合”

Beam Search就聪明多了，每次挑水果的时候不仅会挑最甜的一个，还会选出几个看起来不错的水果组合（比如甜的苹果、酸的橙子、香的葡萄），而且在每一步都保留“多个挑选方案”（比如挑了不同的水果组合路径），并持续观察后续篮子中的水果是否能让这些组合变得更好。最终，当所有的水果都看完，Beam Search会将这些挑选方案中整体口味最佳的作为“最终选择”。虽然挑选过程更复杂，但这样做能确保选出的水果组合更有层次，可能包含甜、酸、香的不同搭配，满足口味的多样性。

以下代码将实现Greedy Search和Beam Search的文本生成过程，并对比两者的生成效果。

代码解析如下：

（1）GPT2TextGenerator：定义了GPT-2文本生成模型，包括greedy_search和beam_search两种生成方法。

●　greedy_search：实现Greedy Search算法，从起始词开始逐步生成，每次生成的词概率最高，但容易陷入局部最优。

●　beam_search：实现Beam Search算法，在每一步选择多个候选路径并保留得分最高的路径，直至生成完成，提高了生成结果的多样性和质量。

（2）解码生成文本：使用简单的词汇解码函数，将生成的词汇索引序列转换为可读文本，便于对比两种生成策略的效果。

代码运行结果如下：

     Greedy Search生成的文本序列: [1, 345, 876, 238, 1095, 358, 302]
     Beam Search生成的文本序列: [1, 345, 876, 1102, 923, 145, 798]
     Greedy Search解码的生成文本: <token_1> <token_345> <token_876> <token_238> <token_1095>
<token_358> <token_302>
     Beam Search解码的生成文本: <token_1> <token_345> <token_876> <token_1102> <token_923>
<token_145> <token_798>

结果解析如下：

（1）Greedy Search生成的文本序列：展示Greedy Search生成的文本序列，由于每次都选择最高概率的词，因此生成效率高，但内容易出现重复和局部最优现象。

（2）Beam Search生成的文本序列：展示Beam Search生成的文本序列，通过保留多个候选路径，使得生成的内容更加丰富，整体质量优于Greedy Search，适用于对生成质量有较高要求的任务。

总的来说，Greedy Search就像“眼前有啥就拿啥”，速度快但不一定最优；Beam Search则是“多个方案对比筛选，最后选择最佳组合”，可以获得更好的结果，但花费时间更长。

2.2 GPT模型的文本生成过程

2.2.1 详解GPT-2文本生成过程

2.2.2 Greedy Search和Beam Search算法的实现与对比

1．Greedy Search：只挑选当下看起来“最好的水果”

2．Beam Search：保留多个可能的选择，选出一组“最搭配的水果组合”

2.2　GPT模型的文本生成过程

2.2.1　详解GPT-2文本生成过程

2.2.2　Greedy Search和Beam Search算法的实现与对比