2022年10月,Play.ht推出的AI播客podcast.ai搜集网络上史蒂夫·乔布斯(Steve Jobs)的所有音频、视频内容和传记,将其作为学习数据,模仿乔布斯与播客主持人乔·罗根(Joe Rogan)进行了长达20分钟的交谈,讨论了乔布斯“自己”的大学时代,并谈到对计算机、工作、信仰等问题的看法,几乎达到了以假乱真的程度。
以上即是AIGC在音频生成领域的应用。AIGC在音频生成领域的应用场景主要体现在TTS场景与乐曲/歌曲生成两个方面。
TTS(Text-To-Speech,语音合成技术)可以将文字内容转化为流畅的语音输出,它广泛应用于语音播报、有声读物制作、语音客服等场景中。
例如,中央广播电视总台音频客户端云听与杭州倒映有声科技有限公司合作,共同打造AI新闻主播;喜马拉雅App上线了由AI主播朗读的有声图书,重现了单田芳声音版本的《毛氏三兄弟》等作品。这不仅丰富了平台的有声书资源,也是AIGC商业化应用的成功实践。
此外,随着媒体内容创作方式的多元化发展,TTS技术也被运用到视频配音的场景中。部分音视频软件可以根据文档内容自动生成配音,涵盖多种语言和音色,例如剪映、九锤配音、XAudioPro等。
目前,依托AIGC音频创作的相关技术,已经能够创作出纯音乐或乐曲中的主旋律。
音乐创作应用Mubert API可以通过输入文字描述(如音乐氛围、情绪类型)并结合用户上传的歌曲小样(demo),快速生成一段个性化音乐,即使文字相同,也可以获得不同的旋律。
德国电信公司组织的专家团队在AI大量学习贝多芬作品的基础上,用AI续写出了贝多芬未完成的《第十交响曲》,于2021年10月在德国波恩首演,作品较为精准地把握了贝多芬的作曲风格,得到了多数观众的认可。
随着AI作曲的发展,其功能可能被拆解为作词、编曲、混音等,为人们带来更多富有新意的作品。