专利基于多级长短期记忆网络的多模态情感应急决策系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210941178.0 (22)申请日 2022.08.05 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人戴亚平　陈奕杉　廖天睿　邵帅　 (51)Int.Cl. G06V 40/16(2022.01) G10L 25/63(2013.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于多级长短期记忆网络的多模态情感应急决策系统 (57)摘要本发明公开的基于多级长短期记忆(Long Short‑Term Memory,LSTM)网络的多模态情感应急决策系统，属于自然语言处理多模态情感分析领域。本发明提供一种基于多级 LSTM网络的多模态情感应急决策系统，对室内公共场所群体情感进行监测，综合公共场所群体情感氛围场与个体极端情绪，对场景内突发事件进行风险评估。本发明实现方法为：对音频及图像信息进行情感识别；建立多级LSTM网络，针对多模态信息的时间关联性进行决策级融合；对各级 LSTM的输出结果在时间维度上进行融合；对融合结果进行野值处理；通过加强个体极端情绪监测，构建情感氛围场，对公共场所环境中集体情感进行整体评估，综合情感氛围场的预测结果及个体极端情绪状态，计算公共场所突发事件的风险等级概率。权利要求书2页说明书10页附图5页 CN 115393927 A 2022.11.25 CN 115393927 A 1.一种基于多级LSTM的多模态情感应急决策系统，其特征在于：包括如下步骤，步骤1：对音频信息进行连续维度上的情感估计，将采集到的音频信息进行数据预处理，提取连续帧序列下的音频模态特征序列，使用基于VGGish ‑13的音频情感感知模型对音频模态特征序列进行情感分类，获取连续帧序列下音频在效价和唤醒两类维度上的情感偏置；步骤2：对视频中的人脸信息进行连续维度上的情感估计，对采集到的视频进行逐帧人脸信息提取，对面部图像进行预处理，获取预处理后人脸图像特征序列，使用基于ResNet ‑ 18的人脸情感感知模型对预处理后的人脸图像特征序列进行情感分类，获取连续帧序列下人脸图像在效价和唤醒两类维度上的情感偏置；步骤3：整合音频情感感知模型和人脸情感感知模型的输出结果，在效价维度和唤醒维度上分别记录连续帧序列下音频及图像的情感偏置；步骤4：建立多级LSTM网络，分别在效价维度和唤醒维度对多模态情感进行决策级融合；步骤5：将单一维度下第一级LSTM网络的输出结果与第二级LSTM网络的输出结果在时间维度上进行融合；根据各级LSTM在同一时刻的节点具有不同的隐藏状态信息，为不同时刻下的两级LSTM网络的输出结果赋予不同的权重进行融合，得到单一维度下的多级LSTM网络情感融合结果；步骤6：在单一维度下对多级LSTM网络情感融合结果进行野值处理；步骤7：根据步骤1至步骤6，对室内公共场所环境下的人群分别在效价维度和唤醒维度上实现基于多级LSTM的多模态情感融合；步骤8：根据单人情感融合结果，对室内公共场所群体情感进行风险决策，包括氛围场估计、极端情绪判定及风险等级判定。 2.如权利要求1所述的一种基于多级LSTM的多模态情感应急决策系统，其特征在于：为提高神经网络训练及情感估计效率，步骤4中，通过减小各级子序列长度，在保障情感估计准确率的同时提升系统实时性。 3.如权利要求2所述的一种基于多级LSTM的多模态情感应急决策系统，其特征在于：为弥补传统LSTM网络输入子序列间缺乏上下文联系的问题，步骤5中，根据各级LSTM在同一时刻的节点具有不同的隐藏状态信息，为不同时刻下的两级LSTM网络的输出结果赋予不同的权重进行融合，得到多级LSTM网络情感融合结果；具体实现步骤如下：步骤5.1：为保障融合结果满足情感短时连续性，对第一级和第二级LSTM 网络的每一个子序列输出的融合情感赋予对应权重；由于位于每个子序列前t imestep/2的节点仅具有短期记忆，因此对输出结果赋予0.1的权重，由于位于后timestep/2的节点同时具有长期记忆与短期记忆，因此对输出结果赋予0.9的权重；步骤5.2：对单一维度下第一级LSTM网络的输出结果和第二级LSTM网络的输出结果在时间维度上进行融合：以第一级LSTM网络的输入时间作为基准时间，对于任意t1时刻的情感融合结果，当多级LSTM网络的情感融合结果当多级LSTM网络的情感融合结果权　利　要　求　书 1/2 页 2 CN 115393927 A 24.如权利要求3所述的一种基于多级LSTM的多模态情感应急决策系统，其特征在于：为避免情感融合结果出现大幅度突变，步骤6中，根据人类情感的短时连续性特征对多级LSTM 网络情感融合结果进行野值处理；具体实现步骤如下：取t‑1时刻至t+1时刻的情感融合结果当满足且时， 5.如权利要求4所述的一种基于多级LSTM的多模态情感应急决策系统，其特征在于：步骤8中，为加强个体极端情绪监测，针对现有人群情感估计对个体极端情绪缺乏重视的问题建立氛围场模型；根据人类情感的短时连续性特征设计情感二维模型；在情感二维模型中依据情感的强烈程度设计风险模型；具体实现步骤如下：步骤8.1：将单人情绪估计结果划分为正常情绪状态与极端情绪状态，当单人情绪中效价维度上的情感融合结果且满足时，判断该用户情绪属于极端范畴，并将该情感融合结果Yit记入极端情绪列表；步骤8.2：建立氛围场模型，根据一段时间内公共场所人群中个体的正常或极端情绪状态进行公共场所群体情感氛围感知，综合群体情感氛围与个体极端情绪计算情感氛围场估计结果，于情感二维模型中进行表示；所述情感二维模型具有效价及唤醒两个相互正交的维度，用于表示连续维度下的情感强度变化；效价及唤醒两个维度的取值分别代表消极到积极和平静到兴奋的偏移量，其取值范围均为[ ‑3,3]，所构成二维空间中的坐标代表不同的情感；步骤8.3：搭建风险模型，根据情感氛围场估计结果进行风险等级计算，并输出对应的风险等级，当公共场所环境处于中高风险状态时，系统将提供相应的应急预案；所述风险模型呈环状结构，基于不同维度下的情感偏移量进行风险计算，风险等级根据情感氛围场估计结果情况记为0级(无风险)、 1级(一般)、 2级(较大)、 3级(重大)、 4级(特别重大)，根据效价及唤醒上的情感融合偏置，当情感氛围场估计结果中效价取值大于0时，风险等级rank记为0级，其他情况下风险等级即计算多模态情感融合结果在情感二维模型中的坐标至原点的距离，经向上取整后记为风险等级。权　利　要　求　书 2/2 页 3 CN 115393927 A 3

专利 基于多级长短期记忆网络的多模态情感应急决策系统

专利基于多级长短期记忆网络的多模态情感应急决策系统