购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.4 基于文本分类模板的开发

如第1章所述,文本分类有非常多的应用场景,例如在电影影评分类中,判断一段评价是正面评价还是负面评价;在公共论坛审核中,识别发布的信息是否有涉政涉暴。本节以文本情感分类为例,介绍如何基于文本分类模板快速开发文本分类应用。

1. 数据准备

在ModelArts所有简单模板中,除通过页面上传数据外,还可以直接将事先准备好的数据集放在OBS(Object Storage Service,对象存储服务)中,并导入ModelArts。文本分类模板要求文本分类数据集由存储在同一目录下的文本文件和标签文件两部分组成,并且可以通过文件名前缀一一对应。例如,文本文件名为“COMMENTS_20190901_12032.txt”,那么标注文件名为“COMMENTS_20190901_12032_result.txt”。数据文件存储样例为

每个文本文件的内容为多行文本,以换行符作为分隔符,每行数据代表一个样本对象。例如,“COMMENTS_20190901_12032.txt”的内容为

     自动学习非常简单好用。
     自动学习所需准备的内容较多。

相应的标签文件“COMMENTS_20190901_12032_result.txt”的内容为

     positive
     negative

在ModelArts上基于文本分类模板创建一个项目,然后将OBS上的数据集导入。

2. 自动模型训练

当数据导入完成后,单击“开始训练”按钮即可使用ModelArts自动学习能力训练文本分类模型。分类问题的评价指标都是类似的,可以参考图像分类和声音分类。最终该示例的模型训练精度为70%。

3. 应用部署和测试

模型训练完成之后,可以部署为一个文本分类推理服务,如图2-11所示,输入一段新的文字并得到其推理结果。在本样例中,这段文字被分类为“positive”,说明该文字是一个正向的评价。

算法选择和模型训练是系统自动完成的,因此基于上述几个简单模板进行快速人工智能应用开发的流程非常相似,区别主要在于数据标注环节和最终的推理环节。

此外,在自动训练完成并部署成功之后,还可以通过直接调用RESTful接口使用部署起来的推理服务。以图像分类为例,该RESTful接口的使用方式非常简单:首先,需要获取Token以获得鉴权认证;然后,直接使用以下命令行来发送RESTful请求到该推理服务的URL(如图2-6右下角所示)就可以得到推理结果。

curl-F ‘images=@图像文件的路径’-H‘X-Auth-Token:Token值’-X POST在线服务地址

图2-11 文本分类推理结果展示界面

当前,随着深度学习的发展,在图像识别、文本识别、语音识别等技术领域,算法的精度有了非常大幅度的提升,在很多场景下达到了期望的精度要求。另外,自动机器学习(AutoML)技术的发展也促使模型的自动设计、选择和训练成为可能。因此,在上述几个技术领域的很多应用场景下,可以根据自定义数据自动训练模型,并加速人工智能应用的开发。然而,可以看到在一些复杂场景下,模型的精度有时会达不到预期。为了提升模型精度,开发者需要在数据准备阶段做进一步数据增强(具体可参考第4章)。

另外,由于实际应用往往面临一些非常棘手的问题,如数据采集成本过高、算法模型和需求之间存在不可避免的鸿沟,通过技术层面的调优难以得到彻底解决。此时,就需要将技术知识和行业知识相融合。例如,政府、交通、金融、公安等行业都有图像识别、文本识别、语音识别等诉求,但具体需求各不相同。将算法与行业的先验知识及行业相关的预训练模型结合起来,可以使模型训练效果更优。这也是人工智能开发模板发展的一个主要趋势。 GddvfBO+dLMR48MQJ5xQ4ZaO3N4Gy4kwIbbi6ywrZBvvCA3cLoOAkTGb8s1x0YiY

点击中间区域
呼出菜单
上一章
目录
下一章
×