专利用于音视频问答的层次化声音-视觉特征融合方法及产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210936845.6 (22)申请日 2022.08.05 (71)申请人清华大学地址 100084 北京市海淀区清华园1号 (72)发明人朱文武　王鑫　杨品慈　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师苟冬梅 (51)Int.Cl. G10L 15/18(2013.01) G10L 15/16(2006.01) G10L 15/26(2006.01) G10L 15/06(2013.01) G10L 25/30(2013.01) G10L 25/57(2013.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称用于音视频问答的层次化声音-视觉特征融合方法及产品 (57)摘要本申请涉及音视频问答领域，提供了一种用于音视频问答的层次化声音 ‑视觉特征融合方法及产品，通过将输入视频片段中的声音嵌入分别在层次化特征融合流程中的早期、中期和晚期分别与基线模型以及视频嵌入、问题嵌入融合并得到第一答案概率分布、第二答案概率分布以及第三答案概率分布，并对答案概率分布基于预设权值相加后取平均进行层次化集成，生成最终答案，本申请提供的方法一方面增加了声音表征模块在整个问答系统中的占比，可以提升问题的回答能力；另一方面，增加声音 ‑视觉融合模块可以提升对复杂语义理解性能，得到对真实复杂场景中视频片段的问题的更优解答案输出。权利要求书2页说明书9页附图2页 CN 115312044 A 2022.11.08 CN 115312044 A 1.一种用于音视频问答的层次化声音‑视觉特征融合方法，其特征在于，包括：将音频‑视频双模态特征输入基线模型，随后将经过基线模型处理的音频 ‑视频双模态特征与问题嵌入融合后进行答案解码，得到第一答案概率分布；将视频嵌入与所述问题嵌入分别输入第一基线模型，将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型，随后对所述第二基线模型进行答案解码，得到第二答案概率分布，其中，所述第一基线模型与所述第二基线模型为所述基线模型依据自身结构分成的两部分；将视频‑问题双模态特征输入所述基线模型，随后将经过基线模型处理的视频 ‑问题双模态特征与所述音频嵌入融合后进行答案解码，得到第三答案概率分布；对得到的所述第一答案概率分布，所述第二答案概率分布以及所述第三答案概率分布进行层次化集成，生成最终答案。 2.根据权利要求1所述的用于音视频问答的层次化声音 ‑视觉特征融合方法，其特征在于，对得到的所述第一答案概率分布，所述第二答案概率分布以及所述第三答案概率分布进行层次化集成，生成最终答案，具体为：将得到的所述第一答案概率分布，所述第二答案概率分布以及所述第三答案概率分布基于预设权值相加后取平均，得到所述最终答案，其中，所述第一答案概率分布、所述第二答案概率分布以及所述第三答案概率分布的预设权值相同。 3.根据权利要求1所述的用于音视频问答的层次化声音 ‑视觉特征融合方法，其特征在于，将音频 ‑视频双模态特征输入基线模型，随后将经过基线模型处理的音频 ‑视频双模态特征与问题嵌入融合后进行答案解码，得到第一答案概率分布，包括：将所述音频嵌入与所述视频嵌入输入第一融合模块，得到所述音频 ‑视频双模态特征；将所述音频 ‑视频双模态特征输入所述基线模型；将所述经过基线模型处理的音频 ‑视频双模态特征与所述问题嵌入输入所述第一融合模块，得到第一三模态特征；将所述第一三模态特征输入第一答案解码器进行答案解码，得到所述第一答案概率分布。 4.根据权利要求1所述的用于音视频问答的层次化声音 ‑视觉特征融合方法，其特征在于，将视频嵌入与所述问题嵌入分别输入第一基线模型，将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型，随后对所述第二基线模型进行答案解码，得到第二答案概率分布，包括：将所述视频嵌入和所述问题嵌入分别输入所述第一基线模型；将所述分别经过第一基线模型处理的视频单模态特征和问题单模态特征与所述音频嵌入输入第二融合模块，得到第二三模态特征；将所述第二三模态特征输入所述第二基线模型；将经过第二基线模型处理的第二三模态特征输入第二答案解码器进行答案解码，得到所述第二答案概率分布。 5.根据权利要求1所述的用于音视频问答的层次化声音 ‑视觉特征融合方法，其特征在于，将视频 ‑问题双模态特征输入所述基线模型，随后将经过基线模型处理的视频 ‑问题双模态特征与所述音频嵌入融合后进行答案解码，得到第三答案概率分布，包括：权　利　要　求　书 1/2 页 2 CN 115312044 A 2将所述视频嵌入与所述问题嵌入输入第三融合模块，得到视频‑问题双模态特征；将所述视频 ‑问题双模态特征输入所述基线模型；将所述经过基线模型处理的视频 ‑问题双模态特征与所述音频嵌入输入所述第三融合模块，得到第三三模态特征；将所述第三三模态特征输入第三答案解码器进行答案解码，得到所述第三答案概率分布。 6.根据权利要求1 ‑5任一所述的用于音视频问答的层次化声音 ‑视觉特征融合方法，其特征在于，包括：所述视频嵌入为基于视频预设算法对视频片段中的视频信息进行数学处理得到的视频数据向量；所述音频嵌入为基于音频预设算法对所述视频片段中的音频信息进行数学处理得到的音频数据向量；所述问题嵌入为基于问题预设算法对所述视频片段对应的问题信息进行数学处理得到的问题数据向量。 7.一种用于音视频问答的层次化声音‑视觉特征融合装置，其特征在于，包括：第一融合模块，用于将音频 ‑视频双模态特征输入基线模型，随后将经过基线模型处理的音频‑视频双模态特征与问题嵌入融合后进行答案解码，得到第一答案概率分布；第二融合模块，用于将视频嵌入与所述问题嵌入分别输入第一基线模型，将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型，随后对所述第二基线模型进行答案解码，得到第二答案概率分布，其中，所述第一基线模型与所述第二基线模型为所述基线模型依据自身结构分成的两部分；第三融合模块，用于将视频 ‑问题双模态特征输入所述基线模型，随后将经过基线模型处理的视频 ‑问题双模态特征与所述音频嵌入融合后进行答案解码，得到第三答案概率分布；答案集成模块，用于对得到的所述第一答案概率分布，所述第二答案概率分布以及所述第三答案概率分布进行层次化集成，生成最终答案。 8.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现权利要求 1‑6中任一所述的用于音视频问答的层次化声音‑视觉特征融合方法中的步骤。 9.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求 1‑6中任一所述的用于音视频问答的层次化声音 ‑视觉特征融合方法中的步骤。 10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1 ‑6中任一所述的用于音视频问答的层次化声音 ‑视觉特征融合方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115312044 A 3

专利 用于音视频问答的层次化声音-视觉特征融合方法及产品

专利用于音视频问答的层次化声音-视觉特征融合方法及产品