全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211073084.2 (22)申请日 2022.09.02 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310023 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 俞旭铮 程远 张伟 蒋晨  (74)专利代理 机构 上海专利商标事务所有限公 司 31100 专利代理师 段登新 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于知识增强的视频场景识别方法和系统 (57)摘要 本公开提供了一种基于知识增强的视频场 景识别方法, 包括: 接收包括多个视频帧和视频 级文本的待识别视频; 从视频级文本抽取关键 词, 并获取多个视频帧的帧级全局时序特征和帧 级局部时序特征、 以及帧级局部非时序特征; 基 于帧级全局时序特征构建视频级时序特征, 以确 定待识别视频的第一场景标签信息; 基于所获取 的帧级局部时序特征、 帧级局部非时序特征以及 关键词构建视频级知识增强特征, 以确定待识别 视频的第二场景标签信息; 以及融合第一场景标 签信息和第二场景标签信息以确定待识别视频 的场景。 权利要求书2页 说明书9页 附图5页 CN 115410130 A 2022.11.29 CN 115410130 A 1.一种基于知识增强的视频场景识别方法, 包括: 接收包括多个视频帧和视频级 文本的待识别视频; 从所述视频级文本抽取关键词, 并获取所述多个视频帧的帧级全局时序 特征和帧级局 部时序特 征、 以及帧级局部非时序特 征; 基于所述帧级全局时序 特征构建视频级时序 特征, 以确定所述待识别 视频的第 一场景 标签信息; 基于所获取的帧级局部时序 特征、 帧级局部非时序 特征以及所述关键词构建视频级知 识增强特 征, 以确定所述待识别视频的第二场景 标签信息; 以及 融合所述第一场景 标签信息和所述第二场景 标签信息以确定所述待识别视频的场景。 2.如权利要求1所述的方法, 所述多个视频帧为所述待识别视频的关键帧。 3.如权利要求1所述的方法, 所述获取所述多个视频帧的帧级全局时序特征和帧级局 部时序特 征是通过融合所述视频帧的多模态特 征进行的。 4.如权利要求3所述的方法, 所述多模态特 征包括视频、 图像、 文本、 音频等特 征。 5.如权利要求1所述的方法, 所述获取 所述多个视频帧的帧级局部非时序特 征包括: 检测所述视频帧中包 含实体的局部区域并抽取 所检出局部区域的特 征; 以及 利用所述视频帧中所检出局部区域的特 征进行帧内推理以获取帧级局部非时序特 征。 6.如权利要求1所述的方法, 所述基于所获取的帧级局部时序特征、 帧级局部非时序 特 征以及所述关键词构建视频级知识增强特 征包括: 利用注意力机制将所获取的帧级局部时序特征和帧级局部非时序特征进行帧级特征 融合, 以获取每 个视频帧的帧级局部特 征; 以及 使用所述关键词的特征融合所述多个视频帧的帧级局部特征, 以获取视频级知识增强 特征。 7.如权利要求1所述的方法, 所述确定所述待识别视频的第一或第二场景标签信息是 使用分层级 多标签预测模型进行的。 8.如权利要求1所述的方法, 所述融合所述第一场景标签信息和所述第二场景标签信 息通过知识蒸馏实现。 9.一种基于知识增强的视频场景识别系统, 包括: 接收模块, 接收包括多个视频帧和视频级 文本的待识别视频; 提取模块, 从所述视频级文本抽取关键词, 并获取所述多个视频帧的帧级全局时序特 征和帧级局部时序特 征、 以及帧级局部非时序特 征; 时序特征学习模块, 基于所述帧级全局时序特征构建视频级时序特征, 以确定所述待 识别视频的第一场景 标签信息; 非时序特征学习模块, 基于所获取的帧级局部时序特征、 帧级局部非时序特征以及所 述关键词构建视频级知识增强特 征, 以确定所述待识别视频的第二场景 标签信息; 以及 场景识别模块, 融合所述第 一场景标签信 息和所述第 二场景标签信 息以确定所述待识 别视频的场景。 10.如权利要求9所述的系统, 在模型训练阶段, 所述时序特征学习模块和所述非时序 特征学习模块均参与模型训练。 11.如权利要求9所述的系统, 在推理测试阶段, 仅所述时序特征学习模块参与推理测权 利 要 求 书 1/2 页 2 CN 115410130 A 2试。 12.一种存储有指令的计算机可读存储介质, 当所述指令被执行时使得机器执行如权 利要求1‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115410130 A 3

.PDF文档 专利 基于知识增强的视频场景识别方法和系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识增强的视频场景识别方法和系统 第 1 页 专利 基于知识增强的视频场景识别方法和系统 第 2 页 专利 基于知识增强的视频场景识别方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:15:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。