大模型驱动的研发效能实践最新章节_顾黄亮著

3.4 简单GPT模型的完整实现

本节以构建一个诗词创作模型为例构建一个简单的GPT模型，描述生成文本的过程。其完整实现代码如下。

上述代码的训练结果如下：

这一完整的模型训练与预测生成过程及相应的生成结果展示了一个简单的GPT模型的实现。然而，这仅为模拟测试，与实际业务应用场景存在较大差异。笔者在此提出若干设想，给读者在实际应用中遇到下列问题时提供多样化的思路，主要包括以下几个方面：

❑ 代码已运行5000次迭代，此迭代次数是否合适？是否可以提前终止？是否需要进一步执行训练？

❑ 验证集的损失值不断增加，这是否意味着模型过拟合？是否需要进一步调整模型结构或超参数？

❑ 在代码执行过程中，是否可以增加更多的日志输出，以更好地理解模型的训练过程和结果？

❑ 生成的结果未严格遵循诗词格式，例如结尾部分未采用七言绝句格式。是否可以进一步调整生成逻辑，使生成的诗词更符合规范？

❑ 模型输出的文字没有明确的开始和结束标志，是否可进一步优化，以便更好地区分生成的内容？