购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 文本分类的应用

即使是狭义的文本分类,其实应用场景也是非常多的。

1.信息提取和信息过滤

为什么将信息提取(Information Retrieval,IR)和信息过滤(Information Filtering,IF)这两个概念放到一起说呢?因为即使将这两个概念分开介绍,读者也会困惑于二者的区别。

所谓信息提取,最典型的应用就是搜索。根据查询条件,在大量文档中寻找相关的文档或者网页,然后根据相关性排序将结果显示给用户。

这跟文本分类有什么关系呢?这个相关性的量化其实就是一种文本分类方法,使用过Elasticsearch的读者都知道其内部的相关性打分方法BM25(不了解的读者可以搜索BM25方法的解释,后面在介绍QA时也会讲解),其实就是基于TF-IDF的一个扩展。这个扩展就可以理解为相关性,只是没有归一化,就像softmax的分子一样,如果使用所有文档的分值之和进行归一化,就会转换为一个0~1的概率值,从而成为多分类问题。如果基于每个文档使用sigmoid进行归一化,那么就成为一个二分类问题。但这个场景只是使用分值作为排序依据,完全没有必要进行最后一步归一化,所以为了节约计算资源就去掉了。在深度学习模型的推断时,如果是排序需求的场景,经常会看到在训练阶段必须进行的最后的softmax归一操作是可以去掉的,同样是为了简化计算量。

这个场景其实跟正统的文本分类还是有区别的,正统的分类输入的是一串非结构化的流式文本,然后进行分类。而这里因为计算的是相关性,所以其实有两个输入,一是用户的搜索条件,二是文档的文本。

那么信息过滤IF是干什么的呢?其实逻辑差不多,只是使用场景不同,信息提取有明确的目标,想要找相关内容。有时候不知道明确的目标,只知道一个目标范围,而且想要长期关注最新的信息,那么信息提取可能就不太适用了,需要反向操作,去掉那些不感兴趣的内容,留下更多的内容再次浏览和过滤。这就是它们的区别。

2.情感分析

所谓情感分析其实就是典型的文本分类,只是限定了文本分类的目标为“正面”“负面”“中性”情绪,而且由于问题场景比较典型,还有对应的子问题,所以被单独划分出来。

情感分析分为3种子问题。

文档级情感分析:分析一篇文档是正面、负面的还是中性的。

句子级情感分析:分析一个句子的情绪是正面的还是负面的。

对象级情感分析:一个句子里可能会对多种对象进行正面或负面的评价。例如,“这个手机外观还是很漂亮的,只是电池待机不行,玩游戏时还发烫”。这句话里就包含三个实体对象,即“手机外观、电池、玩游戏状态”,对应三个情绪词“漂亮、不行、发烫”。这句话相对规整,从逗号分割的三个部分分别描述一个对象,但实际上经常会有多个子句描述一个对象和一个子句描述多个对象的情况。所以对象级情感分析已经不完全属于文本分类问题了,因为这种方法需要识别出里面的实体以及附带的情感词。

3.文本摘要和阅读理解

在抽取式的文本摘要和阅读理解场景里,最终要选择文本里哪个词为最终输出的一部分其实是一个分类问题。当然,对于文本摘要,有时需要选择的可能不是某个词而是某句话,但原理都是相似的。

这几个应用不能算是场景,真实的场景应该是业务中遇到的实际问题,如需要分析用户评论的态度,就属于对象级的情感分析。如果需要将抓取的文章划分到不同的类别中,就属于典型的文本分类。

相对而言,在公司的NLP任务中,文本分类是经常遇到的一种场景。 WTI/umt32NFk0WTUJjZV3rIwHj0YfcL864tGiFMm1nVz7MIq0z0sUIyhgn9Dyz4Z

点击中间区域
呼出菜单
上一章
目录
下一章
×