如何使用对比预测编码提升语音情感识别性能？( 四 )

与普通的卷积模型相比， WaveNet风格的模型具有更大的感受空间，这进一步提高了性能。原因之一可能是它可以展望未来，因为卷积不经掩蔽。与WaveNet模型类似，双向RNN可以使用来自未来的语境，并且当与CPC特征结合时，该架构可展现情感识别性能。 RAVDESS测试集中，帧级精度为79.6% 。据笔者所知，在对所有八种情绪进行分类的测试中，这是这项任务的最新技术。
· 个人情绪
表2显示了测试集中分类的每种情绪的框架式F1分数。这种模式最擅于识别声音中带有厌恶和惊讶情绪的演员，快乐和中立是其表现最差的情感。这可能是因为后者表达能力较低，模型难以分类。

本文插图
表2:通过RNN(双向)模型获得的RAVDESS数据集中每种情绪的F1分数 · 今后工作
未来的工作可能包括用变压器替换CPC系统中的RNN 。笔者能够借此扩大产品总分类模型，并利用来自Librispeech以外来源的更多未标记数据。此外，可以将数据强化添加到情感识别数据中，以提高数据质量，并进一步改善结果。
自我监督学习，如CPC ，可以用来显著减少语音情感识别领域的误差。笔者实验中测试了各种架构，发现双向RNN——可以利用未来的环境——实现最佳性能模型。

本文插图
图源：unsplash
这研究有助于对使用CPC训练的语音演示进行基准测试和改进，以及在对多种情绪进行分类时提高性能。这一切令人兴奋，它为能够更可靠地预测说话者情绪的系统提供了构建模块。例如，这可以显著提高电话服务中心分析工具的质量，这些工具用于帮助代理提高技能并改善客户体验。

本文插图
留言点赞关注
我们一起分享AI学习与发展的干货
如转载，请后台留言，遵守转载规范