专利 视频问答系统的答案生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210981365.1 (22)申请日 2022.08.16 (71)申请人美的集团（上海）有限公司地址 201700 上海市青浦区盈港东路168号 9幢2层20 5室申请人美的集团股份有限公司 (72)发明人车正平　尹程翔　徐志远　伍堃　唐剑　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师胡程潇 (51)Int.Cl. G06F 16/783(2019.01) G06V 20/40(2022.01) G06V 10/80(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称视频问答系统的答案生成方法 (57)摘要本申请涉及视频问答系统技术领域，提供一种视频问答系统的答案生成方法，所述视频问答系统的答案生成方法包括：分别对获取的多个模态特征进行独立建模，生成各模态特征对应的情境化表征；基于各模态特征对应的情境化表征，确定各模态特征对应的图结构的最终层节点值；基于各模态特征对应的图结构的最终层节点值进行目标轮推理，生成最终推理结果；基于最终推理结果和各模态特征对应的情境化表征，生成目标答案。本申请的视频问答系统的答案生成方法，能够联合处理来自摘要模态、视觉模态以及问题模态提取的特征，提高目标答案的准确性和相关性程度。权利要求书2页说明书14页附图3页 CN 115391602 A 2022.11.25 CN 115391602 A 1.一种视频问答系统的答案生成方法，其特征在于，包括：分别对获取的多个模态特征进行独立建模，生成各模态特征对应的情境化表征；基于所述各模态特征对应的情境化表征，确定各模态特征对应的图结构的最终层节点值；基于所述各模态特征对应的图结构的最终层节点值进行目标轮推理，生成最终推理结果；基于所述最终推理结果和所述各模态特征对应的情境化表征，生成目标答案；其中，所述多个模态特征包括待问答视频对应的摘要模态特征、所述待问答视频对应的视频模态特征和待回答问题对应的问题模态特征。 2.根据权利要求1所述的视频问答系统的答案生成方法，其特征在于，所述基于所述各模态特征对应的情境化表征，确定各模态特征对应的图结构的最终层节点值，包括：基于所述各模态特征对应的情境化表征，分别建立各所述模态特征对应的图结构；基于所述图结构进行跨模态注意力机制的推理，生成各模态特征对应的图结构的最终层节点值。 3.根据权利要求2所述的视频问答系统的答案生成方法，其特征在于，所述基于所述图结构进行跨模态注意力机制的推理，生成各模态特征对应的图结构的最终层节点值，包括：基于各所述图结构中的全部节点的两两语义相关值，采用图卷积神经网络更新所述图结构的初始节点值，生成第一节点值；将所述多个模态特征中目标模态特征作为查询模态，确定所述目标模态特征和其他模态特征的跨模态注意力；基于所述跨模态注意力，更新所述目标模态特征对应的图结构的所述第一节点值，生成所述目标模态特征对应的图结构的最终层节点值。 4.根据权利要求2所述的视频问答系统的答案生成方法，其特征在于，所述图结构的节点数量为与所述图结构对应的模态特征所对应的情境化表征的长度。 5.根据权利要求1 ‑4任一项所述的视频问答系统的答案生成方法，其特征在于，所述基于所述各模态特征对应的图结构的最终层节点值进行目标轮推理，生成最终推理结果，包括：基于所述各模态对应的图结构的最终层节点值，确定当前轮推理下的各模态对应的问题引导的模态特征；合并所述当前轮推理下的所述各模态对应的问题引导的模态特征，确定所述当前轮推理下的第一推理结果；确定所述当前轮的轮数小于所述目标轮，基于所述当前轮推理下的第一推理结果，生成下一轮推理下的第一推理结果；确定所述当前轮的轮数等于所述目标轮，将所述当前轮推理下的第一推理结果确定为所述最终推理结果。 6.根据权利要求1 ‑4任一项所述的视频问答系统的答案生成方法，其特征在于，所述基于所述最终推理结果和所述各模态特征对应的情境化表征，生成目标答案，包括：将所述最终推理结果、所述摘要模态特征对应的情境化表征和所述视频模态特征对应的情境化表征合并，生成最终表征；权　利　要　求　书 1/2 页 2 CN 115391602 A 2基于所述待回答问题的问题类型和所述最终表征，生成所述目标答案。 7.根据权利要求6所述的视频问答系统的答案生成方法，其特征在于，所述基于所述待回答问题的问题类型和所述最终表征，生成所述目标答案，包括：确定所述问题类型为选择类问题，对所述最终表征进行分类任务处理，生成所述目标答案；确定所述问题类型为数字类问题，对所述最终表征进行回归任务处理，生成所述目标答案。 8.根据权利要求1 ‑4任一项所述的视频问答系统的答案生成方法，其特征在于，在所述分别对获取的多个模态特征进行独立建模，生成各模态特征对应的情境化表征之前，所述方法包括：基于从所述待问答视频中提取得到的外形特征和光流特征，生成所述摘要模态特征；基于从所述待问答视频中提取得到的所述外形特征和运动特征，生成所述视频模态特征；基于从所述待回答问题中提取的词向量，生成所述问题模态特征。 9.根据权利要求8所述的视频问答系统的答案生成方法，其特征在于，所述基于从所述待问答视频中提取得到的外形特征和光流特征，生成所述摘要模态特征，包括：采用2D卷积神经网络从所述待问答视频中提取得到所述外形特征和所述光流特征；基于所述外形特征和所述光流特征，采用密集视频摘要生成方法生成密集视频摘要；基于所述密集视频摘要，采用词向量嵌入方法与循环神经网络，生成多个摘要表征向量；将所述多个摘要表征向量进行连接，生成所述摘要模态特征。 10.根据权利要求8所述的视频问答系统的答案生成方法，其特征在于，所述基于从所述待回答问题中提取的词向量，生成所述问题模态特征，包括：采用词向量嵌入方法，分别对所述待回答问题中每个单词生成嵌入向量；将每个单词对应的嵌入向量进行连接，生成所述问题模态特征。 11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1至10任一项所述视频问答系统的答案生成方法。 12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至10任一项所述视频问答系统的答案生成方法。 13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述视频问答系统的答案生成方法。权　利　要　求　书 2/2 页 3 CN 115391602 A 3

专利 视频问答系统的答案生成方法

专利视频问答系统的答案生成方法