购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.4 本章小结

首先需要说明的是,本章的模型设计并没有完全遵循Transformer中编码器的设计,而是仅建立了多层注意力层和前馈层。这是与真实的Transformer编码器不一致的地方。

其次,在数据设计上,作者选择将不同字符或拼音作为独立的字符进行存储。这种设计的优点是可以简化数据的最终生成过程,但缺点是增加了字符个数,从而增大了搜索空间,进而对训练提出了更高的要求。另一种划分方法是将拼音拆开,使用字母和音标分离的方式进行处理。有兴趣的读者可以尝试这种方法。

在撰写本章时,作者输入的数据由字(拼音)的嵌入(Embedding)和位置编码共同构成。这种叠加的嵌入值能够更好地捕捉每个字(拼音)在使用上的细微差别。然而,如果读者仅尝试使用单一的字(拼音)嵌入,可能会遇到一个问题——对于相同的音,这种单一的嵌入表示方法无法很好地对同音字进行区分。例如:

Yan3 jing4 眼睛 眼镜

在这种情况下,相同的发音无法分辨出到底是“眼睛”还是“眼镜”。有兴趣的读者可以进行测试,或者深入研究这一问题。 /sT1cUShuq7PvrRcQMQA+LAVo2zIvwCgmlIEgYZ9LKElog+vQ2vr7YnaTr5rsX0H

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开