专利基于知识增强的视频场景识别方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211073084.2 (22)申请日 2022.09.02 (71)申请人支付宝（杭州）信息技术有限公司地址 310023 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人俞旭铮　程远　张伟　蒋晨　 (74)专利代理机构上海专利商标事务所有限公司 31100 专利代理师段登新 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于知识增强的视频场景识别方法和系统 (57)摘要本公开提供了一种基于知识增强的视频场景识别方法，包括：接收包括多个视频帧和视频级文本的待识别视频；从视频级文本抽取关键词，并获取多个视频帧的帧级全局时序特征和帧级局部时序特征、以及帧级局部非时序特征；基于帧级全局时序特征构建视频级时序特征，以确定待识别视频的第一场景标签信息；基于所获取的帧级局部时序特征、帧级局部非时序特征以及关键词构建视频级知识增强特征，以确定待识别视频的第二场景标签信息；以及融合第一场景标签信息和第二场景标签信息以确定待识别视频的场景。权利要求书2页说明书9页附图5页 CN 115410130 A 2022.11.29 CN 115410130 A 1.一种基于知识增强的视频场景识别方法，包括：接收包括多个视频帧和视频级文本的待识别视频；从所述视频级文本抽取关键词，并获取所述多个视频帧的帧级全局时序特征和帧级局部时序特征、以及帧级局部非时序特征；基于所述帧级全局时序特征构建视频级时序特征，以确定所述待识别视频的第一场景标签信息；基于所获取的帧级局部时序特征、帧级局部非时序特征以及所述关键词构建视频级知识增强特征，以确定所述待识别视频的第二场景标签信息；以及融合所述第一场景标签信息和所述第二场景标签信息以确定所述待识别视频的场景。 2.如权利要求1所述的方法，所述多个视频帧为所述待识别视频的关键帧。 3.如权利要求1所述的方法，所述获取所述多个视频帧的帧级全局时序特征和帧级局部时序特征是通过融合所述视频帧的多模态特征进行的。 4.如权利要求3所述的方法，所述多模态特征包括视频、图像、文本、音频等特征。 5.如权利要求1所述的方法，所述获取所述多个视频帧的帧级局部非时序特征包括：检测所述视频帧中包含实体的局部区域并抽取所检出局部区域的特征；以及利用所述视频帧中所检出局部区域的特征进行帧内推理以获取帧级局部非时序特征。 6.如权利要求1所述的方法，所述基于所获取的帧级局部时序特征、帧级局部非时序特征以及所述关键词构建视频级知识增强特征包括：利用注意力机制将所获取的帧级局部时序特征和帧级局部非时序特征进行帧级特征融合，以获取每个视频帧的帧级局部特征；以及使用所述关键词的特征融合所述多个视频帧的帧级局部特征，以获取视频级知识增强特征。 7.如权利要求1所述的方法，所述确定所述待识别视频的第一或第二场景标签信息是使用分层级多标签预测模型进行的。 8.如权利要求1所述的方法，所述融合所述第一场景标签信息和所述第二场景标签信息通过知识蒸馏实现。 9.一种基于知识增强的视频场景识别系统，包括：接收模块，接收包括多个视频帧和视频级文本的待识别视频；提取模块，从所述视频级文本抽取关键词，并获取所述多个视频帧的帧级全局时序特征和帧级局部时序特征、以及帧级局部非时序特征；时序特征学习模块，基于所述帧级全局时序特征构建视频级时序特征，以确定所述待识别视频的第一场景标签信息；非时序特征学习模块，基于所获取的帧级局部时序特征、帧级局部非时序特征以及所述关键词构建视频级知识增强特征，以确定所述待识别视频的第二场景标签信息；以及场景识别模块，融合所述第一场景标签信息和所述第二场景标签信息以确定所述待识别视频的场景。 10.如权利要求9所述的系统，在模型训练阶段，所述时序特征学习模块和所述非时序特征学习模块均参与模型训练。 11.如权利要求9所述的系统，在推理测试阶段，仅所述时序特征学习模块参与推理测权　利　要　求　书 1/2 页 2 CN 115410130 A 2试。 12.一种存储有指令的计算机可读存储介质，当所述指令被执行时使得机器执行如权利要求1‑8中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115410130 A 3

专利 基于知识增强的视频场景识别方法和系统

专利基于知识增强的视频场景识别方法和系统