全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210981365.1 (22)申请日 2022.08.16 (71)申请人 美的集团 (上海) 有限公司 地址 201700 上海市青浦区盈 港东路168号 9幢2层20 5室 申请人 美的集团股份有限公司 (72)发明人 车正平 尹程翔 徐志远 伍堃  唐剑  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 胡程潇 (51)Int.Cl. G06F 16/783(2019.01) G06V 20/40(2022.01) G06V 10/80(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 视频问答系统的答案生成方法 (57)摘要 本申请涉及视频问答系统技术领域, 提供一 种视频问答系统的答案生 成方法, 所述视频问答 系统的答案生成方法包括: 分别对获取的多个模 态特征进行独立建模, 生 成各模态特征对应的情 境化表征; 基于各模态特征对应的情境化表征, 确定各模态特征对应的 图结构的最终层节点值; 基于各模态特征对应的图结构的最终层节点值 进行目标轮推理, 生成最终推理结果; 基于最终 推理结果和各模态特征对应的情境化表征, 生成 目标答案。 本申请的视频问答系统的答案生成方 法, 能够联合处理来自摘要模态、 视觉模态以及 问题模态 提取的特征, 提高目标答案的准确性和 相关性程度。 权利要求书2页 说明书14页 附图3页 CN 115391602 A 2022.11.25 CN 115391602 A 1.一种视频问答系统的答案生成方法, 其特 征在于, 包括: 分别对获取的多个模态特 征进行独立建模, 生成各模态特 征对应的情境 化表征; 基于所述各模态特征对应的情境化表征, 确定各模态特征对应的图结构的最终层节点 值; 基于所述各模态特征对应的图结构的最终层节点值进行目标轮推理, 生成最终推理结 果; 基于所述 最终推理结果和所述各模态特 征对应的情境 化表征, 生成目标答案; 其中, 所述多个模态特征包括待问答视频对应的摘要模态特征、 所述待问答视频对应 的视频模态特 征和待回答问题对应的问题模态特 征。 2.根据权利要求1所述的视频问答系统 的答案生成方法, 其特征在于, 所述基于所述各 模态特征对应的情境 化表征, 确定各模态特 征对应的图结构的最终层节点 值, 包括: 基于所述各模态特 征对应的情境 化表征, 分别建立各 所述模态特 征对应的图结构; 基于所述图结构进行跨模态注意力 机制的推理, 生成各模态特征对应的图结构的最终 层节点值。 3.根据权利要求2所述的视频问答系统 的答案生成方法, 其特征在于, 所述基于所述图 结构进行跨模态 注意力机制的推理, 生成各模态特 征对应的图结构的最终层节点 值, 包括: 基于各所述图结构中的全部节点的两两语义相关值, 采用图卷积神经网络更新所述图 结构的初始 节点值, 生成第一节点 值; 将所述多个模态特征中目标模态特征作为查询模态, 确定所述目标模态特征和其他模 态特征的跨模态 注意力; 基于所述跨模态注意力, 更新所述目标模态特征对应的图结构的所述第一节点值, 生 成所述目标模态特 征对应的图结构的最终层节点 值。 4.根据权利要求2所述的视频问答系统 的答案生成方法, 其特征在于, 所述图结构的节 点数量为与所述图结构对应的模态特 征所对应的情境 化表征的长度。 5.根据权利要求1 ‑4任一项所述的视频问答系统的答案生成方法, 其特征在于, 所述基 于所述各模态特征对应的图结构的最终层节点值进行目标轮推理, 生成最终推理结果, 包 括: 基于所述各模态对应的图结构的最终层节点值, 确定当前轮推理下的各模态对应的问 题引导的模态特 征; 合并所述当前轮推理下的所述各模态对应的问题引导的模态特征, 确定所述当前轮推 理下的第一推理结果; 确定所述当前轮的轮数小于所述目标轮, 基于所述当前轮推理下的第一推理结果, 生 成下一轮 推理下的第一推理结果; 确定所述当前轮的轮数等于所述目标轮, 将所述当前轮推理下的第 一推理结果确定为 所述最终推理结果。 6.根据权利要求1 ‑4任一项所述的视频问答系统的答案生成方法, 其特征在于, 所述基 于所述最终推理结果和所述各模态特 征对应的情境 化表征, 生成目标答案, 包括: 将所述最终推理结果、 所述摘要模态特征对应的情境化表征和所述视频模态特征对应 的情境化表征合并, 生成最终表征;权 利 要 求 书 1/2 页 2 CN 115391602 A 2基于所述待回答问题的问题类型和所述 最终表征, 生成所述目标答案 。 7.根据权利要求6所述的视频问答系统 的答案生成方法, 其特征在于, 所述基于所述待 回答问题的问题类型和所述 最终表征, 生成所述目标答案, 包括: 确定所述问题类型为选择类问题, 对所述最终表征进行分类任务处理, 生成所述目标 答案; 确定所述问题类型为数字类问题, 对所述最终表征进行回归任务处理, 生成所述目标 答案。 8.根据权利要求1 ‑4任一项所述的视频问答系统的答案生成方法, 其特征在于, 在所述 分别对获取 的多个模态特征进行独立建模, 生成各模态特征对应的情境化表征之前, 所述 方法包括: 基于从所述待问答视频中提取 得到的外形 特征和光流特征, 生成所述摘要模态特 征; 基于从所述待问答视频中提取得到的所述外形特征和运动特征, 生成所述视频模态特 征; 基于从所述待回答问题中提取的词向量, 生成所述问题模态特 征。 9.根据权利要求8所述的视频问答系统 的答案生成方法, 其特征在于, 所述基于从所述 待问答视频中提取 得到的外形 特征和光流特征, 生成所述摘要模态特 征, 包括: 采用2D卷积神经网络从所述待问答视频中提取 得到所述外形 特征和所述 光流特征; 基于所述外形 特征和所述 光流特征, 采用密集视频摘要生成方法生成密集视频摘要; 基于所述密集视频摘要, 采用词向量嵌入方法与循环神经网络, 生成多个摘要表征向 量; 将所述多个摘要表征向量进行 连接, 生成所述摘要模态特 征。 10.根据权利要求8所述的视频问答系统的答案生成方法, 其特征在于, 所述基于从所 述待回答问题中提取的词向量, 生成所述问题模态特 征, 包括: 采用词向量嵌入方法, 分别对所述待回答问题中每 个单词生成 嵌入向量; 将每个单词对应的嵌入向量进行 连接, 生成所述问题模态特 征。 11.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1至10任一项 所述视频问 答系统的答案生成方法。 12.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机 程序被处 理器执行时实现如权利要求1至10任一项所述视频问答系统的答案生成方法。 13.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至10任一项所述视频问答系统的答案生成方法。权 利 要 求 书 2/2 页 3 CN 115391602 A 3

.PDF文档 专利 视频问答系统的答案生成方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频问答系统的答案生成方法 第 1 页 专利 视频问答系统的答案生成方法 第 2 页 专利 视频问答系统的答案生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:16:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。