如何使用对比预测编码提升语音情感识别性能?( 四 )


与普通的卷积模型相比 , WaveNet风格的模型具有更大的感受空间 , 这进一步提高了性能 。 原因之一可能是它可以展望未来 , 因为卷积不经掩蔽 。 与WaveNet模型类似 , 双向RNN可以使用来自未来的语境 , 并且当与CPC特征结合时 , 该架构可展现情感识别性能 。 RAVDESS测试集中 , 帧级精度为79.6% 。 据笔者所知 , 在对所有八种情绪进行分类的测试中 , 这是这项任务的最新技术 。
· 个人情绪
表2显示了测试集中分类的每种情绪的框架式F1分数 。 这种模式最擅于识别声音中带有厌恶和惊讶情绪的演员 , 快乐和中立是其表现最差的情感 。 这可能是因为后者表达能力较低 , 模型难以分类 。
如何使用对比预测编码提升语音情感识别性能?
本文插图
表2:通过RNN(双向)模型获得的RAVDESS数据集中每种情绪的F1分数 · 今后工作
未来的工作可能包括用变压器替换CPC系统中的RNN 。 笔者能够借此扩大产品总分类模型 , 并利用来自Librispeech以外来源的更多未标记数据 。 此外 , 可以将数据强化添加到情感识别数据中 , 以提高数据质量 , 并进一步改善结果 。
自我监督学习 , 如CPC , 可以用来显著减少语音情感识别领域的误差 。 笔者实验中测试了各种架构 , 发现双向RNN——可以利用未来的环境——实现最佳性能模型 。
如何使用对比预测编码提升语音情感识别性能?
本文插图
图源:unsplash
这研究有助于对使用CPC训练的语音演示进行基准测试和改进 , 以及在对多种情绪进行分类时提高性能 。 这一切令人兴奋 , 它为能够更可靠地预测说话者情绪的系统提供了构建模块 。 例如 , 这可以显著提高电话服务中心分析工具的质量 , 这些工具用于帮助代理提高技能并改善客户体验 。
如何使用对比预测编码提升语音情感识别性能?
本文插图
留言点赞关注
我们一起分享AI学习与发展的干货
如转载 , 请后台留言 , 遵守转载规范