购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 基于声音分类模板的开发

声音分类任务是指对一段音频文件进行分类,输入是一段音频,输出是这段音频的所属类别。本节以狗狗和飞机声音分类为例,介绍如何基于声音分类模板快速开发声音分类应用。

1. 数据准备

首先在ModelArts上基于目标检测模板创建一个项目,然后上传若干个声音分类的数据,如图2-9所示。在ModelArts的声音分类模板中,音频只支持16bit的WAV格式,且单条音频时长应大于1s,大小不能超过4MB。适当增加训练数据,会提升模型的精度。建议每类音频50条以上,每类音频总时长5min以上。ModelArts提供声音数据的在线播放功能,可以在页面上单击“播放”按钮对声音数据进行试听,通过听觉和理解进行标注。

图2-9 某声音分类数据预览

2. 自动模型训练

与图像分类、目标检测一样,完成标注后就可以进行模型的自动训练。待声音分类模型自动训练完成之后,就可以观察到模型的精度信息。由于本示例中数据只有两种类别,而且区分度很高,所以模型训练精度高达100%。

3. 应用部署和测试

同样地,将训练好的声音分类模型部署为一个推理服务。声音分类模型一般比目标检测模型复杂度低一些,因此推理速度较快。通过上传一个新的音频段,可以得到其推理结果,如图2-10所示。

图2-10 某声音分类的推理结果展示界面 T0DdkD+E8C8pjO39Aw/zb0jPYc7/XwGrT12XOnCXJ98xnpatn5c9uDMY5BD8S6bQ

点击中间区域
呼出菜单
上一章
目录
下一章
×