购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.5.1 样本数据的精细化处理

GPT类型的大模型对数据质量要求极高,低质量数据只能生成低质量的结果。以诗歌生成为例,常见的诗词主要分为“五言诗”和“七言诗”,通常律诗为八句,绝句为四句。但在实际的唐诗中,最长的超过1000字。为了训练常规的诗歌模型,必须将过长的诗歌从样本中剔除(如著名的《长恨歌》,加上标点符号共计1024个字符),这就涉及对样本内容的数据分析。

下面是一个简单的样本数据分析代码:

通过对诗歌长度的分析,得出如下结果。

根据数据分析,将诗歌长度设置为81个字符,可以确保大部分诗歌能够被纳入,同时过滤掉过长的诗歌,避免因长度过长影响训练效果。此举的根本原因在于,大模型在样本训练中需考虑统一的序列长度,极端长度会增加模型训练的难度,进而影响模型的训练表现。 RJAl5YrHsZYFLQi0LEP8KU7N5MKKWK52JUrgD96nIUBzFda3oYUfXVQABTD/BDnw

点击中间区域
呼出菜单
上一章
目录
下一章
×