第2章
文本分类

文本分类是NLP中最常见的任务之一，它的应用十分广泛，例如将客户反馈标注为不同的类别或根据语言分配给会这种语言的客服人员。很有可能，你的电子邮件程序的垃圾邮件过滤器正在使用文本分类来保护你的收件箱，避免被大量的垃圾邮件淹没！

另一种常见的文本分类是情感分析，它（正如我们在第1章中所看到的）旨在确定给定文本的极性。例如，像特斯拉这样的公司可能会分析像图2-1中的Twitter帖子（后文统称推文），以确定人们是否喜欢它的新车顶。

图2-1：分析推文以从客户那里获得有用的反馈（由Aditya Veluri提供）

现在想象一下，你是一名数据科学家，需要构建一个系统，可以自动识别人们在Twitter上对你公司产品表达的情感状态，例如愤怒或喜悦。在本章中，我们将使用一种名为DistilBERT ^[1] 的BERT变体来解决这个任务。该模型的主要优点是，在实现与BERT相当的性能的同时，体积更小、效率更高。这使我们能够在几分钟内训练一个分类器，如果你想训练一个更大的BERT模型，则只需更改预训练模型的checkpoint。 checkpoint 对应于加载到给定Transformer架构中的权重集。

这也将是我们首次接触Hugging Face生态系统中的三个核心库：Datasets、Tokenizers和Transformers。如图2-2所示，这些库令我们能够快速地将原始文本输入微调后的模型，以用于推理新的推文。因此，现在我们在擎天柱 ^[2] 的带领下，变形出发！

图2-2：使用Datasets、Tokenizers和Transformers库进行Transformer模型训练的典型流程

第2章 文本分类

第2章
文本分类