国内专家对AI情感语音多模态分析和识别数据库的研究

人类交流情感、思想和其他信息的最自然和有效的方式之一就是语音。语音情感识别作为人机交互智能技术的重要组成部分，受到了广泛的关注。例如通过驾驶员的语音、面部表情和身体行为，可以判断驾驶员的情绪状态，并及时提醒驾驶员保持清醒，以避免交通事故。在人机对话中，掌握人类的情绪状态可以帮助智能机器人做出合适的回应，及时表达安慰和理解，提高用户体验。在语音翻译方面，将说话者的语音情感信息和自动翻译结果结合起来，可以使各方的交流更加顺畅。语音情感识别研究的前提是有情感语音数据库的支持。情感语音数据库的质量很大程度上影响了由其训练的情感识别系统的性能。由于情感涉及心理学、个体对情感的认知和表达的差异、情感刺激方法和实验录制标准的不统一等因素，大多数研究机构都根据自己的科研需求建立了相应的情感语音数据库，并没有建立情感语音数据库的统一标准。

建立一个具有自然情感和流畅表达的情感语音数据库已经逐渐成为国内外的研究热点。最新发表的论文《Construction and Evaluation of Mandarin Multimodal Emotional Speech Database》（https://arxiv.org/abs/2401.07336）旨在建立一个具有真实情感刺激、自然表达和离散和维度注释信息共存的高质量情感语音数据库。这篇论文是由太原理工大学信息与计算机学院的Zhu Ting, Li Liangqi, Duan Shufei, Zhang Xueying, Jia Hairng, 苏州大学光电信息科学与工程学院的Xiao Zhongzhe，以及纽卡斯尔大学计算学院的Liang Huizhi等七位中国专家作者共同撰写的。这篇论文介绍了一个包含发音运动、语音、声门和视频四种模态的中文情感语音数据库，以及对该数据库进行的维度标注和情感识别的评估。论文的主题是非常前沿和有价值的，因为情感语音是人类交流中不可或缺的一部分，而多模态数据可以提供更丰富和准确的情感信息，有助于提高情感识别的性能和鲁棒性。他们的创新点有三个：

1）这是国内外第一个将发音运动、声门、语音和视频四种模态结合的情感语音数据库。

2）第一个使用了7点语义差异法对情感语音进行PAD维度标注的数据库，改进了9点语义差异法的不准确性和5点语义差异法的不足。

3）第一个将PAD标注与SCL-90心理量表相结合，分析标注者内部心理因素对PAD标注的影响的数据库。

七位专家设计并建立了包括发音运动学、声学、声门和面部微表情在内的多模态情感语音普通话数据库，从语料库设计、主题选择、录音细节和数据处理等方面进行了详细描述。其中，信号被标记为离散的情感标签（中性、快乐、愉快、冷漠、愤怒、悲伤、悲伤）和维度情感标签（愉悦、唤起、支配）。通过对标注数据的统计分析，验证了标注的有效性。对注释者的SCL-90量表数据进行验证，并与PAD注释数据相结合进行分析，以探讨注释中的异常现象与注释者心理状态之间的内在关系。为了验证数据库的语音质量和情绪辨别能力，使用SVM、CNN和DNN三个基本模型来计算这七种情绪的识别率。结果表明，单独使用声学数据时，七种情绪的平均识别率约为82%。当单独使用声门数据时，平均识别率约为72%。仅使用运动学数据，平均识别率也达到55.7%。因此，该数据库质量很高，可以作为语音分析研究的重要来源，特别是用于多模态情感语音分析的任务。

关键词：情感言语数据库；多模式情绪识别；维度情感空间；三维电磁发音仪；电子声门装置

数据库的构建方法和内容

他们构建的数据库名为STEM-E2VA，即Speech, Tongue, EGG and Micro-expression Emotional Database，是一个多模态的中文情感语音数据库，包含了发音运动、语音、声门和视频四种模态的数据。他们采用了非专业表演者进行情景描述的表演录制方式，以期获得更自然和真实的情感语音。选择七种情感，即高兴、愉快、生气、冷漠、悲伤、悲痛和中性，分别对应了强弱两种情感强度。他们招募了22名大学生作为表演者，分别表演了两种类型的文本，即元音和句子。元音文本是由五个中文元音组成的随机序列，用于观察发音运动和声门信号的变化；句子文本是由八个中文句子组成的，用于观察语音和视频信号的变化。他们使用了多种仪器和设备来录制和采集数据，包括：

发音运动数据：使用电磁伺服发音运动测量仪（EMA）来测量舌头和嘴唇的运动轨迹，每秒采样500次，共采集了八个轨迹点，分别是舌尖、舌中、舌根、舌后、上唇、下唇、上齿龈和下齿龈。

图1：校准头部传感器设置

语音数据：使用麦克风和录音机来录制语音信号，每秒采样16,000次，采用16位量化精度，保存为WAV格式的文件。

声门数据：使用电声门图（EGG）仪来测量声门开合的周期性变化，每秒采样4,000次，保存为WAV格式的文件。

视频数据：使用高速摄像机来录制表演者的面部微表情，每秒采样200帧，分辨率为640×480像素，保存为AVI格式的文件。

通过以上的方法和设备，他们共录制了2,943个声音、发音和声门数据样本，以及24.5小时的面部微表情数据。这些数据可以为情感语音的研究提供丰富和多样的信息，也可以为发音运动和声门信号与语音信号之间的内在联系提供依据。

数据库的维度标注方法和结果

他们使用了PAD三维情感模型来对数据库进行维度标注，该模型将情感分为愉悦度、唤起度和支配度三个维度，每个维度有四个项目，每个项目有七个等级。他们采用了微信小程序作为标注平台，邀请了28名学生和社会人士对数据库中的语音进行标注，分为两个实验，实验一用于筛选标注者，实验二用于标注八种情感的语音。

图2：PAD原理图

他们分析了标注结果的一致性、可靠性和有效性，并与其他情感模型进行了比较，证明了PAD模型在语音情感标注中的适用性和优越性。他们的维度标注方法和结果有以下几个特点：

他们对PAD情感量表进行了改进，使用了7点语义差异法，使得标注者可以更准确地表达情感强度，避免了9点语义差异法的混淆和5点语义差异法的不足。

他们对标注数据进行了统计分析，发现标注数据的标准差在0.90到1.50之间，表明数据具有一定的分散度，而不是集中在一个区域。同时，标注数据在PAD三维空间中的分布也表明，不同的情感可以在空间中被很好地区分，且标注数据基本围绕中心点分布，表明数据具有一定的集中度。

他们对标注数据中出现的异常值进行了分析和处理，使用密度估计曲线、箱线图和抖动散点图等方法，根据标注值的平均值和标准差，确定了异常值的阈值，并对异常值的产生原因进行了探讨，认为主要是由于标注者对情感强度的理解和感受存在差异所致。

他们使用了自评症状清单90 (SCL-90)来评估标注者的心理症状状况，并探索了异常值与心理症状的相关性。对SCL-90的信度和效度进行了分析，结果表明该量表具有良好的信度和效度，可以用于进一步的分析。他们使用了多元线性回归分析，发现了心理症状的九个因素与高低维度标准的六个类别之间的关系，建立了初步的模型，并使用逐步回归分析法，保证只有显著的独立变量被纳入回归方程。

数据库的异常值分析和处理

他们对标注数据中出现的异常值进行了分析和处理，使用密度估计曲线、箱线图和抖动散点图等方法，根据标注值的平均值和标准差，确定了异常值的阈值，并对异常值的产生原因进行了探讨，认为主要是由于标注者对情感强度的理解和感受存在差异所致。他们的异常值分析和处理有以下几个步骤：

首先，他们使用密度估计曲线来观察标注数据的分布情况，发现标注数据呈现出多峰的特征，表明标注数据存在一定的分散性，也反映了标注者对情感强度的不同认知和感受。

其次，他们使用箱线图来确定异常值的阈值，根据标注值的平均值和标准差，计算出上下四分位数和上下四分位距，以及上下异常值的界限。他们认为，超出上下异常值界限的标注值为异常值，需要进行处理。

第三，他们使用抖动散点图来展示标注数据的分布情况，以及异常值的位置和数量。他们发现，异常值主要集中在高兴、愉快、悲伤和悲痛四种情感中，而且异常值的数量和比例也不同，表明标注者对这些情感的标注存在一定的偏差和不一致性。

最后，他们对异常值的产生原因进行了分析，认为主要是由于以下几个方面的因素：

图3：个体情绪的标准差

标注者的个体差异：不同的标注者可能对情感强度的理解和感受有不同的标准和偏好，导致标注结果的差异和不一致。

标注者的心理状态：标注者在标注过程中可能受到自身的心理状况的影响，如情绪、压力、疲劳等，影响标注的准确性和稳定性。

标注者的标注技巧：标注者可能对标注工具和标注方法不熟悉，或者对标注任务不够专注和认真，导致标注的质量和效率下降。

标注者的标注环境：标注者可能在标注过程中受到外界的干扰和干扰，如噪音、光线、温度等，影响标注的舒适度和专注度。

图4：情绪的平均分布

他们对异常值进行了处理，使用了以下两种方法：

1）删除法：将异常值直接删除，只保留正常值，以提高数据的一致性和可靠性。

2）替换法：将异常值用正常值的平均值或中位数替换，以保持数据的完整性和连续性。

他们对两种方法的优缺点进行了分析，认为删除法可以减少数据的噪声和误差，但也会降低数据的规模和多样性；替换法可以保持数据的规模和多样性，但也会引入数据的偏差和不准确性。他们根据不同的情况选择了合适的方法，以达到最佳的效果。

数据库的情感识别评估和比较

他们使用了支持向量机、深度神经网络和卷积神经网络等方法对数据库进行了情感识别的评估，结果表明该数据库具有高质量的语音和明显的情感区分度，可以为国内外的情感识别研究提供良好的数据支持。他们的情感识别评估和比较有以下几个特点：

他们使用了OpenSMILE工具提取了声学、声门和运动学特征，分别是INTERSPEECH 2009 Emotional Challenge特征集（简称IS09特征集）、声门周期特征和发音器官的位移和速度特征。这些特征可以反映语音信号的不同方面，也可以与情感维度有一定的相关性。

公式中：Pk表示传感器的左唇、右唇、上唇、下唇、舌基、舌心和舌尖在k轴方向上的位移特性；k分别是X、Y和Z轴；V是每个咬合架的速度特征，共有28个维度的发音运动学特征。

他们使用了80%的语音样本作为训练集，剩余的20%作为测试集，分别使用了支持向量机、深度神经网络和卷积神经网络作为分类器，对数据库中的七种情感进行了识别。结果显示，三种基本模型在声学数据上的识别率分别达到了82.57%、85.28%和79.85%；在声门数据上的识别率分别达到了72.28%、79.85%和65.42%；在运动学数据上的识别率分别达到了53.57%、61.17%和52.28%。这些结果表明，该数据库可以通过简单的基本特征和基本识别网络，实现高识别率，证明了该数据库的语音质量和情感区分度。

他们对识别结果进行了混淆矩阵的分析，发现了一些情感之间的混淆现象，例如高兴和愉快、冷漠和悲伤等。这些混淆现象可能是由于这些情感在特征和情感强度上有一定的相似性或差异性所致。他们认为，可以通过增加更多的模态和特征，以及使用更复杂的识别网络，来提高情感识别的准确性和鲁棒性。

展望

普通话多模态情感语音数据库的构建与评估的研究为情感语音的多模态分析和识别提供了一个有价值的数据资源和参考依据，也为未来的研究提出了一些可能的方向，例如：

继续探索发音运动、声门、语音和视频四种模态之间的关联和融合，以提取更有效的情感特征和信息。

同时探索PAD维度标注与SCL-90心理量表之间的联系和影响，以揭示标注者的心理状态对标注结果的作用和机制。

探索更先进的情感识别方法和技术，如深度学习、迁移学习、多任务学习等，以提升情感识别的性能和适应性。（END）

参考资料：https://arxiv.org/abs/

噬元兽（FlerkenS）是一个去中心化的个人AI数字价值容器，同时也是数字经济的新型资产捕捉器和转化器，用数据飞轮为用户提供无边界的数字化、智能化和资产化服务。

噬元兽(FlerkenS)构建AI市场、AI发布器和一个在通用人工智能（AGI）上建设可扩展的系统，AI-DSL让不同类型和领域的AI应用和服务可以相互协作和交互，通过RAG向量数据库（Personal Vector Database）+ Langchain技术方案（Langchain Technology Solution）+大模型的技术实现路径，让用户获得个性化的AI服务，在分布式的网络环境里与AI技术下的服务商实现点到点的连接，建设一个智能体和经济体结合的数智化整体。

波动世界（PoppleWorld)是噬元兽平台的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，采用Web3分布式技术建设一套采集用户情绪数据并通过TOKEN激励聚合形成情感垂直领域的RAG向量数据库，并以此训练一个专门解决用户情绪管理的大模型，结合Agents技术形成情感类AI智慧体。在产品里植入协助用户之间深度交互提供情绪价值的社交元素，根据用户的更深层化的需求处理准确洞察匹配需求，帮助用户做有信心的购买决定并提供基于意识源头的商品和服务，建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

国内专家对AI情感语音多模态分析和识别数据库的研究

独角也有噬元兽