如何使用对比预测编码提升语音情感识别性能?( 四 )
与普通的卷积模型相比 , WaveNet风格的模型具有更大的感受空间 , 这进一步提高了性能 。 原因之一可能是它可以展望未来 , 因为卷积不经掩蔽 。 与WaveNet模型类似 , 双向RNN可以使用来自未来的语境 , 并且当与CPC特征结合时 , 该架构可展现情感识别性能 。 RAVDESS测试集中 , 帧级精度为79.6% 。 据笔者所知 , 在对所有八种情绪进行分类的测试中 , 这是这项任务的最新技术 。
· 个人情绪
表2显示了测试集中分类的每种情绪的框架式F1分数 。 这种模式最擅于识别声音中带有厌恶和惊讶情绪的演员 , 快乐和中立是其表现最差的情感 。 这可能是因为后者表达能力较低 , 模型难以分类 。
本文插图
表2:通过RNN(双向)模型获得的RAVDESS数据集中每种情绪的F1分数 · 今后工作
未来的工作可能包括用变压器替换CPC系统中的RNN 。 笔者能够借此扩大产品总分类模型 , 并利用来自Librispeech以外来源的更多未标记数据 。 此外 , 可以将数据强化添加到情感识别数据中 , 以提高数据质量 , 并进一步改善结果 。
自我监督学习 , 如CPC , 可以用来显著减少语音情感识别领域的误差 。 笔者实验中测试了各种架构 , 发现双向RNN——可以利用未来的环境——实现最佳性能模型 。
本文插图
图源:unsplash
这研究有助于对使用CPC训练的语音演示进行基准测试和改进 , 以及在对多种情绪进行分类时提高性能 。 这一切令人兴奋 , 它为能够更可靠地预测说话者情绪的系统提供了构建模块 。 例如 , 这可以显著提高电话服务中心分析工具的质量 , 这些工具用于帮助代理提高技能并改善客户体验 。
本文插图
留言点赞关注
我们一起分享AI学习与发展的干货
如转载 , 请后台留言 , 遵守转载规范
- 游戏葡萄|七年磨一剑的任天堂,如何用美术诠释游戏?
- 智能城市崛起,看智能化如何定义未来之城
- 青年|G2和GEN比赛解说席最精彩,鼓鼓视角的两位解说对比很好笑
- 王者荣耀|李小龙皮肤如何搭配才最帅气,这个回城特效绝配,搭配特效秒变传说皮肤!
- 小闲聊游戏|我的世界:玩家自制“现实”与游戏对比图,史蒂夫是最强主角?
- 剖析爱奇艺积分体系,如何做留存和转化
- ZAKER生活|在俄避难的斯诺登,结局如何?,7年前曝光美国“棱镜计划”
- 周到|复盘上海德比首回合 上港如何破申花的密集防守
- 王者荣耀|王者荣耀:不知道如何玩好射手?S21赛季全射手出装铭文合集送给你!
- 涨幅低于|各地物价如何? 19地9月CPI回 “1时代” 海南最低
