关于本研究课题
随着包括机器学习在内的数据驱动工具的发展,音频信号处理已经达到了很高的精度水平,无论是语音识别还是情感分析。
这两个问题都需要为信号源创建一个模型。虽然语音信号的这一要求已经得到了解决,但通过将识别问题重新划分为声学模型、语言模型和可选的发音模型,对语音信号中的情绪变化检测建模仍然存在问题。这一特殊的方面对于精神健康障碍的诊断可能非常有趣,因为它可能带来有关心理迹象的有用信息,例如突然的情绪变化和其他精神健康问题。
然而,语音情感变化检测的主要问题与变化/异常检测的执行方式有关。更具体地说,如何处理收集到的原始语音数据
从不同的来源,如直接记录患者的讲话,或从与心理学家的电话交谈。此外,音频源的本质还会产生其他问题,例如(a)可能的来源太多,(b)需要为每种情绪类别提供足够的数据,(c)特别是收集到的音频的不确定性问题
数据。
基于这些考虑,机器学习似乎是解决这些问题的可靠解决方案。事实上,语音情感识别一直以来都是基于数据驱动的模型,如隐马尔可夫模型(HMM)、深度神经网络(DNN),并在最近向端到端或动态模型发展,而情感变化/异常检测仍有待完善
定义了基于机器学习的框架来解决上述问题。这样的框架应该能够对音频源建模,并满足情绪变化/异常检测过程的目标。
该呼吁建议提出对所提出问题的不同方面感兴趣的贡献,包括(但不限于):
开发基于机器学习的语音情感识别方法;
情绪化语音信号的变化/异常检测方法
专用语音语料库和音频数据集和/或特征提取方法
语音情感识别和/或情感变化/异常检测的不确定性建模。
这两个问题都需要为信号源创建一个模型。虽然语音信号的这一要求已经得到了解决,但通过将识别问题重新划分为声学模型、语言模型和可选的发音模型,对语音信号中的情绪变化检测建模仍然存在问题。这一特殊的方面对于精神健康障碍的诊断可能非常有趣,因为它可能带来有关心理迹象的有用信息,例如突然的情绪变化和其他精神健康问题。
然而,语音情感变化检测的主要问题与变化/异常检测的执行方式有关。更具体地说,如何处理收集到的原始语音数据
从不同的来源,如直接记录患者的讲话,或从与心理学家的电话交谈。此外,音频源的本质还会产生其他问题,例如(a)可能的来源太多,(b)需要为每种情绪类别提供足够的数据,(c)特别是收集到的音频的不确定性问题
数据。
基于这些考虑,机器学习似乎是解决这些问题的可靠解决方案。事实上,语音情感识别一直以来都是基于数据驱动的模型,如隐马尔可夫模型(HMM)、深度神经网络(DNN),并在最近向端到端或动态模型发展,而情感变化/异常检测仍有待完善
定义了基于机器学习的框架来解决上述问题。这样的框架应该能够对音频源建模,并满足情绪变化/异常检测过程的目标。
该呼吁建议提出对所提出问题的不同方面感兴趣的贡献,包括(但不限于):
开发基于机器学习的语音情感识别方法;
情绪化语音信号的变化/异常检测方法
专用语音语料库和音频数据集和/或特征提取方法
语音情感识别和/或情感变化/异常检测的不确定性建模。
关键字:机器学习,语音情感识别,情绪变化/异常检测,神经网络,音频数据集,表达性语音语料库,特征提取,建模不确定性
重要提示:本研究主题的所有投稿必须在其提交的章节和期刊的范围内,如其任务陈述中所定义的。在同行评审的任何阶段,Frontiers保留将超出范围的稿件转移到更合适的章节或期刊的权利。