购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.8 本章小结

好了,看到这里,希望你很高兴学习到如何开始训练这些多功能模型并将其集成到自己的应用中!在本章你已经看到,只需几行代码,就可以使用最先进的模型进行分类、命名实体识别、问答、翻译和文本摘要,但这些功能实际上都只是“冰山一角”。

在后续章节中,你将学习如何使Transformer适配各种用例,例如构建文本分类器或用于生产的轻量级模型,甚至从头开始训练语言模型。我们将采用动手实操的方法进行讲解,这意味着对于所讲到的每个概念,都会有配套的代码,并且你可以在Google Colab或你自己的GPU机器上运行这些代码。

现在我们已经掌握了Transformer背后的基本概念,是时候动手处理我们的第一个应用了:文本分类。这也就是第2章的主题!


[1] A. Vaswani et al., “Attention Is All You Need”( https://arxiv.org/abs/1706.03762 ),(2017).这篇论文的标题非常夸张,以至于不下50篇后续论文( https://oreil.ly/wT8Ih )在标题中都包含了“all you need”!

[2] J. Howard and S. Ruder,“Universal Language Model Fine-Tuning for Text Classification”( https://arxiv.org/abs/1801.06146 ),(2018).

[3] A. Radford et al., “Improving Language Understanding by Generative Pre-Training”( https://openai.com/blog/language-unsupervised ),(2018).

[4] J. Devlin et al., “BERT:Pre-Training of Deep Bidirectional Transformers for Language Understanding”( https://arxiv.org/abs/1810.04805 ),(2018).

[5] I. Sutskever, O. Vinyals, and Q.V. Le, “Sequence to Sequence Learning with Neural Networks”( https://arxiv.org/abs/1409.3215 ), (2014).

[6] D. Bahdanau, K. Cho, and Y. Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate”( https://arxiv.org/abs/1409.0473 ), (2014).

[7] 当涉及机器翻译时,对于一组源语言单词和目标语言单词之间的对应关系有时可能是非常明显和直接的。例如,英文句子“The cat sat on the mat”翻译成法语时,“le chat s'est assis sur le tapis”中的每个单词都能够简单地对应于英文句子中的一个单词。然而,在其他情况下,这种对应关系可能并不是那么直接或显而易见的。在这种情况下,可以使用注意力机制来帮助模型学习这种更复杂的对应关系,这些对应关系被称为非平凡对应。这意味着在生成翻译时,每个目标语言单词与源语言单词之间的关系不能被简单地表示为一对一的对应关系。相反,同一个目标单词可能需要对应于多个源单词(或反之亦然),甚至可能需要考虑整个源句子才能确定最佳的对应关系。

[8] 权重是神经网络的可学习参数。

[9] A. Radford, R. Jozefowicz, and I. Sutskever, “Learning to Generate Reviews and Discovering Sentiment”( https://arxiv.org/abs/1704.01444 ), (2017).

[10] 当时的一项相关工作是ELMo(Embeddings from Language Models,来自语言模型的嵌入),它展示了预训练LSTM如何为下游任务产生高质量的词嵌入。

[11] 对于世界上大多数语言,获得大量数字化文本语料库可能很困难,英语更是如此。寻找解决这一问题的方法是NLP研究方向的一个活跃领域。

[12] Y. Zhu et al., “Aligning Books and Movies:Towards Story-Like Visual Explanations by Watching Movies and Reading Books”( https://arxiv.org/abs/1506.06724 ),(2015).

[13] Rust( https://rust-lang.org )是一种高性能编程语言。 vZ4vyBVabBLu9aPbVoLy9nmCZ019f+1b0lvr932sQws067Qt0XWV4fpL4D/lOrjf

点击中间区域
呼出菜单
上一章
目录
下一章
×