全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210941178.0 (22)申请日 2022.08.05 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 戴亚平 陈奕杉 廖天睿 邵帅  (51)Int.Cl. G06V 40/16(2022.01) G10L 25/63(2013.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于多级长短期记忆网络的多模态情感应 急决策系统 (57)摘要 本发明公开的基于多级长短期记忆(Long   Short‑Term Memory,LSTM)网络的多模态情感应 急决策系统, 属于自然语言处理多模态情感分析 领域。 本发明提供一种基于多级 LSTM网络的多模 态情感应急决策系统, 对室内公共场所群体情感 进行监测, 综合公共场所群体情感氛围场与个体 极端情绪, 对场景内突发事件进行风险评估。 本 发明实现方法为: 对音 频及图像信息进行情感识 别; 建立多级LSTM网络, 针对多模态信息的时间 关联性进行决策级融合; 对各级 LSTM的输出结果 在时间维度上进行融合; 对融合结果进行野值处 理; 通过加强个体极端情绪监测, 构建情感氛围 场, 对公共场所环境中集体情感进行整体评估, 综合情感氛围场的预测结果及个体极端情绪状 态, 计算公共场所突发事 件的风险等级概 率。 权利要求书2页 说明书10页 附图5页 CN 115393927 A 2022.11.25 CN 115393927 A 1.一种基于多 级LSTM的多模态情感应急决策系统, 其特 征在于: 包括如下步骤, 步骤1: 对音频信息进行连续维度上的情感估计, 将采集到的音频信息进行数据预处 理, 提取连续帧序列下的音 频模态特征序列, 使用基于VGGish ‑13的音频情感感知模型对音 频模态特征序列进行情感分类, 获取连续帧序列下音频在效价和唤醒两类维度上的情感偏 置; 步骤2: 对视频中的人脸信息进行连续维度 上的情感估计, 对采集到的视频进行逐帧人 脸信息提取, 对面部图像进行预处理, 获取预处理后人脸图像特征序列, 使用基于ResNet ‑ 18的人脸情感感知 模型对预 处理后的人脸图像特征序列进 行情感分类, 获取连续帧序列下 人脸图像在效价和唤醒两类维度上的情感偏置; 步骤3: 整合音频情感感知模型和人脸情感感知模型的输出结果, 在效价维度和唤醒维 度上分别记录连续帧序列下音频及图像的情感偏置; 步骤4: 建立多级LSTM网络, 分别在效价维度和 唤醒维度对多模态情感进行决策级融 合; 步骤5: 将单一维度下第一级LSTM网络的输出结果与第二级LSTM网络的输出结果在时 间维度上进行融合; 根据各级LSTM在同一时刻的节点具有不同的隐藏状态信息, 为不同时 刻下的两级LSTM网络的输出结果赋予不同的权重进 行融合, 得到单一 维度下的多级LSTM网 络情感融合结果; 步骤6: 在单一维度下对多 级LSTM网络情感融合结果进行野值处 理; 步骤7: 根据步骤1至步骤6, 对室内公共场所环境下的人群分别在效价维度和唤醒维度 上实现基于多 级LSTM的多模态情感融合; 步骤8: 根据单人情感融合结果, 对室内公共场所群体情感进行风险决策, 包括氛围场 估计、 极端情绪判定及风险等级判定 。 2.如权利要求1所述的一种基于多级LSTM的多模态情 感应急决策系统, 其特征在于: 为 提高神经网络训练及情感估计效率, 步骤4中, 通过减小各级子序列长度, 在保障情感估计 准确率的同时提升系统实时性。 3.如权利要求2所述的一种基于多级LSTM的多模态情 感应急决策系统, 其特征在于: 为 弥补传统LSTM网络输入子序列间缺乏上下文 联系的问题, 步骤5中, 根据各级LSTM在同一时 刻的节点具有不同的 隐藏状态信息, 为不同时刻下的两级LSTM网络的输出结果赋予不同的 权重进行融合, 得到多 级LSTM网络情感融合结果; 具体实现步骤如下: 步骤5.1: 为保障融合结果满足情感短时连续性, 对第一级和第二级LSTM 网络的每一个 子序列输出的融合情感赋予对应权重; 由于位于每个子序列前t imestep/2的节点仅具有短 期记忆, 因此对输出结果赋予0.1的权重, 由于位于后timestep/2的节 点同时具有长期记忆 与短期记 忆, 因此对输出 结果赋予0.9的权 重; 步骤5.2: 对单一维度下第一级LSTM网络的输出结果 和第二级LSTM网络的输出结果 在时间维度上进行融合: 以第一级LSTM网络的输入时间作为基准时间, 对于任意t1时 刻的情感融合 结果, 当 多级LSTM网络的情感融合 结果 当 多级LSTM网络的情感融合结果 权 利 要 求 书 1/2 页 2 CN 115393927 A 24.如权利要求3所述的一种基于多级LSTM的多模态情 感应急决策系统, 其特征在于: 为 避免情感 融合结果出现大幅度突变, 步骤6中, 根据人类情感的短时连续性特征对多级LSTM 网络情感融合结果进行野值处 理; 具体实现步骤如下: 取t‑1时刻至t+1时刻的情感融合结果 当满足 且 时, 5.如权利要求4所述的一种基于多级LSTM的多模态情 感应急决策系统, 其特征在于: 步 骤8中, 为加强个体极端情绪监测, 针对现有人群情感估计对个体极端情绪缺乏重视的问题 建立氛围场模型; 根据人类情感的短时连续性特征设计情感二维模型; 在情感二维模型中 依据情感的强烈程度设计风险模型; 具体实现步骤如下: 步骤8.1: 将单人情绪估计结果划分为正常情绪状态与极端情绪状态, 当单人情绪 中效价维度上的情感融合结果 且满足 时, 判断该用户情 绪属于极端范畴, 并将该情感融合结果Yit记入极端情绪列表; 步骤8.2: 建立氛围场模型, 根据一段时间内公共场所人群 中个体的正常或极端情绪状 态进行公共场所群体情感氛围感知, 综合群体情感氛围与个体极端情绪计算情感氛围场估 计结果, 于情感二维模型中进行表示; 所述情感二维模型具有 效价及唤醒两个相互正交的维度, 用于表示连续维度 下的情感 强度变化; 效价及唤醒两个维度的取值分别代表消极到积极和平静到兴奋的偏移量, 其取 值范围均为[ ‑3,3], 所构成二维空间中的坐标代 表不同的情感; 步骤8.3: 搭建风险模型, 根据情感氛围场估计结果进行风险等级计算, 并输出对应的 风险等级, 当公共场所环境处于中 高风险状态时, 系统将提供相应的应急预案; 所述风险模型呈环状结构, 基于不同维度下的情感偏移量进行风险计算, 风险等级根 据情感氛 围场估计结果情况记为0级(无风险)、 1级(一般)、 2级(较大)、 3级(重大)、 4级(特 别重大), 根据效价及唤醒上的情感 融合偏置, 当情感氛围场估计结果中效价取值大于0时, 风险等级rank记为0级, 其他情况下风险等级 即计算多模态情感融合 结果在情感二维模型中的坐标至原点的距离, 经向上 取整后记为 风险等级。权 利 要 求 书 2/2 页 3 CN 115393927 A 3

.PDF文档 专利 基于多级长短期记忆网络的多模态情感应急决策系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多级长短期记忆网络的多模态情感应急决策系统 第 1 页 专利 基于多级长短期记忆网络的多模态情感应急决策系统 第 2 页 专利 基于多级长短期记忆网络的多模态情感应急决策系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:14:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。