ModelArts人工智能应用开发指南最新章节_田奇著

2.3　基于声音分类模板的开发

声音分类任务是指对一段音频文件进行分类，输入是一段音频，输出是这段音频的所属类别。本节以狗狗和飞机声音分类为例，介绍如何基于声音分类模板快速开发声音分类应用。

1. 数据准备

首先在ModelArts上基于目标检测模板创建一个项目，然后上传若干个声音分类的数据，如图2-9所示。在ModelArts的声音分类模板中，音频只支持16bit的WAV格式，且单条音频时长应大于1s，大小不能超过4MB。适当增加训练数据，会提升模型的精度。建议每类音频50条以上，每类音频总时长5min以上。ModelArts提供声音数据的在线播放功能，可以在页面上单击“播放”按钮对声音数据进行试听，通过听觉和理解进行标注。

图2-9　某声音分类数据预览

2. 自动模型训练

与图像分类、目标检测一样，完成标注后就可以进行模型的自动训练。待声音分类模型自动训练完成之后，就可以观察到模型的精度信息。由于本示例中数据只有两种类别，而且区分度很高，所以模型训练精度高达100%。

3. 应用部署和测试

同样地，将训练好的声音分类模型部署为一个推理服务。声音分类模型一般比目标检测模型复杂度低一些，因此推理速度较快。通过上传一个新的音频段，可以得到其推理结果，如图2-10所示。

图2-10　某声音分类的推理结果展示界面

2.3 基于声音分类模板的开发

1. 数据准备

2. 自动模型训练

3. 应用部署和测试

2.3　基于声音分类模板的开发