全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210936845.6 (22)申请日 2022.08.05 (71)申请人 清华大学 地址 100084 北京市海淀区清华园1号 (72)发明人 朱文武 王鑫 杨品慈  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 苟冬梅 (51)Int.Cl. G10L 15/18(2013.01) G10L 15/16(2006.01) G10L 15/26(2006.01) G10L 15/06(2013.01) G10L 25/30(2013.01) G10L 25/57(2013.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称 用于音视频问答的层次化声音-视觉特征融 合方法及产品 (57)摘要 本申请涉及 音视频问答领域, 提供了一种用 于音视频问答的层次化声音 ‑视觉特征融合方法 及产品, 通过将输入视频片段中的声音嵌入分别 在层次化特征融合流程中的早期、 中期和晚期分 别与基线模 型以及视频 嵌入、 问题嵌入融合并得 到第一答案概率分布、 第二答案概率分布以及第 三答案概率 分布, 并对答案概率 分布基于预设权 值相加后取平均进行层次化集成, 生成最终答 案, 本申请提供的方法一方面增加了声音表征模 块在整个问答系统中的占比, 可以提升问题的回 答能力; 另一方面, 增加声音 ‑视觉融合模块可以 提升对复杂语义理解性能, 得到对真实 复杂场景 中视频片段的问题的更优解 答案输出。 权利要求书2页 说明书9页 附图2页 CN 115312044 A 2022.11.08 CN 115312044 A 1.一种用于音视频问答的层次化声 音‑视觉特征融合方法, 其特 征在于, 包括: 将音频‑视频双模态特征输入基线模型, 随后将经过基线模型处理的音频 ‑视频双模态 特征与问题嵌入融合后进行答案解码, 得到第一 答案概率分布; 将视频嵌入与 所述问题嵌入分别输入第 一基线模型, 将分别经过第 一基线模型处理 的 视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型, 随后对所述第二 基线模型进 行答案解码, 得到第二答案概率分布, 其中, 所述第一基线模型与所述第二基线 模型为所述基线模型依据自身结构分成的两 部分; 将视频‑问题双模态特征输入所述基线模型, 随后将经过基线模型处理的视频 ‑问题双 模态特征与所述音频嵌入融合后进行答案解码, 得到第三 答案概率分布; 对得到的所述第 一答案概率分布, 所述第 二答案概率分布以及所述第 三答案概率分布 进行层次化 集成, 生成最终答案 。 2.根据权利要求1所述的用于音视频问答的层次化声音 ‑视觉特征融合方法, 其特征在 于, 对得到的所述第一答案概率分布, 所述第二答案概率分布以及所述第三答案概率分布 进行层次化 集成, 生成最终答案, 具体为: 将得到的所述第 一答案概率分布, 所述第 二答案概率分布以及所述第 三答案概率分布 基于预设权值相加后取平均, 得到所述最终答案, 其中, 所述第一答案概率分布、 所述第二 答案概率分布以及所述第三 答案概率分布的预设权值相同。 3.根据权利要求1所述的用于音视频问答的层次化声音 ‑视觉特征融合方法, 其特征在 于, 将音频 ‑视频双模态特征输入基线模型, 随后将经过基线模型处理的音频 ‑视频双模态 特征与问题嵌入融合后进行答案解码, 得到第一 答案概率分布, 包括: 将所述音频嵌入与所述视频嵌入输入第一融合模块, 得到所述音频 ‑视频双模态特 征; 将所述音频 ‑视频双模态特 征输入所述基线模型; 将所述经过基线模型处理的音频 ‑视频双模态特征与 所述问题嵌入输入所述第 一融合 模块, 得到第一 三模态特 征; 将所述第一三模态特征输入第 一答案解码器进行答案解码, 得到所述第 一答案概率分 布。 4.根据权利要求1所述的用于音视频问答的层次化声音 ‑视觉特征融合方法, 其特征在 于, 将视频嵌入与所述问题嵌入分别输入第一基线模型, 将分别经过第一基线模型处理的 视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型, 随后对所述第二 基线模型进行答案解码, 得到第二 答案概率分布, 包括: 将所述视频嵌入和所述问题嵌入分别输入所述第一基线模型; 将所述分别经过第一基线模型处理的视频单模态特征和问题单模态特征与所述音频 嵌入输入第二融合模块, 得到第二 三模态特 征; 将所述第二 三模态特 征输入所述第二基线模型; 将经过第二基线模型处理的第 二三模态特征输入第 二答案解码器进行答案解码, 得到 所述第二 答案概率分布。 5.根据权利要求1所述的用于音视频问答的层次化声音 ‑视觉特征融合方法, 其特征在 于, 将视频 ‑问题双模态特征输入所述基线模型, 随后将经过基线模型处理的视频 ‑问题双 模态特征与所述音频嵌入融合后进行答案解码, 得到第三 答案概率分布, 包括:权 利 要 求 书 1/2 页 2 CN 115312044 A 2将所述视频嵌入与所述问题嵌入输入第三融合模块, 得到 视频‑问题双模态特 征; 将所述视频 ‑问题双模态特 征输入所述基线模型; 将所述经过基线模型处理的视频 ‑问题双模态特征与 所述音频嵌入输入所述第 三融合 模块, 得到第三 三模态特 征; 将所述第三三模态特征输入第 三答案解码器进行答案解码, 得到所述第 三答案概率分 布。 6.根据权利要求1 ‑5任一所述的用于音视频问答的层次化声音 ‑视觉特征融合方法, 其 特征在于, 包括: 所述视频嵌入为基于视频预设算法对视频片段中的视频信息进行数学处理得到的视 频数据向量; 所述音频嵌入为基于音频预设算法对所述视频片段中的音频信息进行数学处理得到 的音频数据向量; 所述问题嵌入为基于问题预设算法对所述视频片段对应的问题信息进行数学处理得 到的问题数据向量。 7.一种用于音视频问答的层次化声 音‑视觉特征融合装置, 其特 征在于, 包括: 第一融合模块, 用于将音频 ‑视频双模态特征输入基线模型, 随后将经过基线模型处理 的音频‑视频双模态特 征与问题嵌入融合后进行答案解码, 得到第一 答案概率分布; 第二融合模块, 用于将视频嵌入与所述问题嵌入分别输入第一基线模型, 将分别经过 第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线 模型, 随后对所述第二基线模型进行答案解码, 得到第二答案概率分布, 其中, 所述第一基 线模型与所述第二基线模型为所述基线模型依据自身结构分成的两 部分; 第三融合模块, 用于将视频 ‑问题双模态特征输入所述基线模型, 随后将经过基线模型 处理的视频 ‑问题双模态特征与所述音频嵌入融合后进行答案解码, 得到第三答案概率分 布; 答案集成模块, 用于对得到的所述第一答案概率分布, 所述第二答案概率分布以及所 述第三答案概率分布进行层次化 集成, 生成最终答案 。 8.一种电子设备, 其特征在于, 包括存储器、 处理器及存储在存储器上的计算机程序, 所述处理器执行所述计算机程序以实现权利要求 1‑6中任一所述的用于音视频问答的层次 化声音‑视觉特征融合方法中的步骤。 9.一种计算机可读存储介质, 其上存储有计算机程序/指令, 其特征在于, 该计算机程 序/指令被处理器执行时实现权利要求 1‑6中任一所述的用于音视频问答的层次化声音 ‑视 觉特征融合方法中的步骤。 10.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现权利要求1 ‑6中任一所述的用于音视频问答的层次化声音 ‑视觉特征融 合方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115312044 A 3

.PDF文档 专利 用于音视频问答的层次化声音-视觉特征融合方法及产品

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于音视频问答的层次化声音-视觉特征融合方法及产品 第 1 页 专利 用于音视频问答的层次化声音-视觉特征融合方法及产品 第 2 页 专利 用于音视频问答的层次化声音-视觉特征融合方法及产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:16:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。