全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210980577.8 (22)申请日 2022.08.16 (65)同一申请的已公布的文献号 申请公布号 CN 115063731 A (43)申请公布日 2022.09.16 (73)专利权人 之江实验室 地址 311121 浙江省杭州市余杭区之江实 验室南湖总部 (72)发明人 卢修生 赵思成 程乐超 苏慧  宋明黎  (74)专利代理 机构 北京志霖恒远知识产权代理 有限公司 1 1435 专利代理师 戴莉 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 114494981 A,202 2.05.13 CN 107330362 A,2017.1 1.07 CN 113343950 A,2021.09.0 3 CN 107609460 A,2018.01.19 US 10089556 B1,2018.10.02 张琪等.多 模态数据支持的学习投入评测: 现状、 启示与研究趋向. 《远程教育杂志》 .2020, (第01期), Myeongjun Kim, 等.Spati o-Temporal Slowfast Self-A ttention Network For Action Recogn ition. 《2020 IE EE Internati onal Conference o n Image Processing (ICIP)》 .2020, 审查员 凡保磊 (54)发明名称 基于两阶段运动建模和注意力的动作视频 分类方法和系统 (57)摘要 本发明公开了一种基于两阶段运动建模和 注意力的动作视频分类方法和系统, 包括以下步 骤: 步骤S1: 构建采样帧输入至主干网络; 步骤 S2: 第一阶段段内运动信息建模, 输出包含短时 运动信息的视频卷积特征; 步骤S3: 第二阶段段 间运动信息建模, 输出融合了短时运动信息和长 时运动信息的空间块注意力视频卷积特征; 步骤 S4: 经过全 连接层后得到 各视频段的分类结果并 融合, 训练网络。 本发明利用卷积神经网络的多 层次结构, 在网络的较低层和较高层分别提取段 内运动信息和段间运动信息, 达到分阶段运动综 合建模的目的。 此外, 本发明计算视频卷积特征 各空间块之间的注意力关系, 使得网络同时具备 了卷积操作和注意力机制的短距离和长距离建模能力。 权利要求书3页 说明书8页 附图3页 CN 115063731 B 2022.11.11 CN 115063731 B 1.一种基于两阶段运动建模和注意力的动作视频分类方法, 其特征在于, 包括以下步 骤: 步骤S1: 对输入的原始视频进行均匀分段, 每个视频段随机采样连续多帧, 得到采样 帧, 并将所有所述采样帧输入至主干网络; 步骤S2: 在所述主干网络的任意层第s层将所述主干网络进行分段, 在所述主干网络的 前s层进行第一阶段段内运动信息建模, 前s层每层有多个串联组合, 所述串联组合由2D卷 积和1D按深度卷积构成, 在每层利用每个串 联组合的2D卷积和1D按深度卷积分别进 行空域 建模和时域建模, 所述采样帧经 过第一阶段后输出包 含短时运动信息的视频 卷积特征; 步骤S3: 在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模, 后s层 每层有多个串联组合, 所述串联 组合由2D卷积、 1D按深度卷积和空间块注 意力模块构成, 在 每层利用每个串联组合的2D卷积、 1D按深度卷积和空间块注意力模块分别进行空域建模、 时域建模和空间块注 意力操作, 所述包含短时运动信息的视频卷积特征经过第二阶段后输 出融合了短时运动信息和长时运动信息的空间块注意力视频 卷积特征; 步骤S4: 各视频段的所述融合了短时运动信 息和长时运动信 息的空间块注意力 视频卷 积特征经过所述主干网络的全连接层后得到各视频段的分类结果, 并将所述分类结果进 行 平均融合得到原 始视频的分类结果, 采用交叉熵损失函数对所述主干网络进行训练。 2.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法, 其特 征在于, 所述 步骤S2具体包括以下子步骤: 步骤S21: 在所述主干网络的任意层第s层将所述主干网络进行分段, 在所述主干网络 的前s层进行第一阶段 段内运动信息建模; 步骤S22: 依次利用2D卷积提取空域表观信息, 利用1D按深度卷积提取各视频段内相邻 所述采样帧间的短时运动信息, 输出包 含短时运动信息的视频 卷积特征; 步骤S23: 通过卷积核大小、 填充大小、 步长的参数设置, 将所述包含短时运动信息的视 频卷积特征在时间尺度降为 一。 3.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法, 其特 征在于, 所述 步骤S3具体包括以下子步骤: 步骤S31: 在所述主干网络的第s层之后网络层进行第二阶段 段间运动信息建模; 步骤S32: 以所述包含短时运动信息的视频卷积特征作 为输入, 依次利用2D卷积提取空 域表观信息, 利用1D按深度卷积提取各视频段之间的长时运动信息, 得到融合了短时运动 信息和长时运动信息的视频 卷积特征; 步骤S33: 利用空间块注意力模块实现空间上长距离地信息交互, 输出融合了短时运动 信息和长时运动信息的空间块注意力视频 卷积特征。 4.如权利要求3所述的一种基于两阶段运动建模和注意力的动作视频分类方法, 其特 征在于, 所述 步骤S33具体包括以下子步骤: 步骤S331: 利用空间块注意力模块将所述融合了短时运动信息和长时运动信息的视频 卷积特征经过空间分块, 得到多个空间块; 步骤S332: 计算每个空间块与所有空间块之间的相关性矩阵, 利用所述相关性矩阵作 为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进 行加权, 得到加 权后特征;权 利 要 求 书 1/3 页 2 CN 115063731 B 2步骤S333: 将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征 进行融合操作, 得到融合了短时运动信息和长时运动信息的空间块注意力视频 卷积特征。 5.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法, 其特 征在于, 所述主干网络基于ResNet5 0模型进行扩展。 6.一种基于 两阶段运动建模和注意力的动作视频分类系统, 其特 征在于, 包括: 采样模块: 用于对输入的原始视频进行均匀分段, 每个视频段随机采样连续多帧, 得到 采样帧, 并将所有所述采样帧输入至主干网络; 第一阶段段内运动信息建模模块: 用于在所述主干网络的任意层第s层将所述主干网 络进行分段, 在所述主干网络的前s层进行第一阶段段内运动信息建模, 前s层每层有多个 串联组合, 所述串联组合由2D卷积和1D按深度卷积构成, 在每层利用每个串联组合的2D卷 积和1D按深度卷积分别进 行空域建模和时域建模, 所述采样帧经过第一阶段后输出包含短 时运动信息的视频 卷积特征; 第二阶段段间运动信息建模模块: 用于在所述主干网络的第s层之后网络层进行第二 阶段段间运动信息建模, 后 s层每层有多个串联组合, 所述串联组合由2D卷积、 1D按深度卷 积和空间块注意力模块构成, 在每层利用每个串联组合的2D卷积、 1D按深度卷积和空间块 注意力模块分别进行空域建模、 时域建模和空间块注意力操作, 所述包含短时运动信息的 视频卷积特征经过第二 阶段后输出融合了短时运动信息和长时运动信息的空间块注意力 视频卷积特征; 融合及训练模块: 用于各视频段的所述融合了短时运动信 息和长时运动信 息的空间块 注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果, 并将所述 分类结果进行平均融合得到原始视频的分类结果, 采用交叉熵损失函数对 所述主干网络进 行训练。 7.如权利要求6所述的一种基于两阶段运动建模和注意力的动作视频分类系统, 其特 征在于, 所述第一阶段段内运动信息 建模模块, 依次利用2D卷积提取空域表观信息, 利用1D 按深度卷积提取各视频段内相 邻所述采样帧间的短时运动信息, 输出包含短时运动信息的 视频卷积特征; 并且通过卷积核大小、 填充大小、 步长的参数设置, 使得所述包含短时运动 信息的视频 卷积特征在时间尺度降为 一。 8.如权利要求6所述的一种基于两阶段运动建模和注意力的动作视频分类系统, 其特 征在于, 所述第二阶段段间运动信息建模模块, 以所述包含短时运动信息的视频卷积特征 作为输入, 依次利用2D卷积提取空域表观信息, 利用1D按深度卷积提取各视频段之间的长 时运动信息, 得到融合了短时运动信息和长时运动信息的视频卷积特征; 然后利用空间块 注意力模块 实现空间上长距离地信息交互, 输出融合了 短时运动信息和长时运动信息的空 间块注意力视频 卷积特征。 9.如权利要求8所述的一种基于两阶段运动建模和注意力的动作视频分类系统, 其特 征在于, 所述空间块注意力模块用于将所述融合了 短时运动信息和长时运动信息的视频卷 积特征经过空间分块后, 计算每个空间块与所有空间块之间的相关性矩阵

.PDF文档 专利 基于两阶段运动建模和注意力的动作视频分类方法和系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于两阶段运动建模和注意力的动作视频分类方法和系统 第 1 页 专利 基于两阶段运动建模和注意力的动作视频分类方法和系统 第 2 页 专利 基于两阶段运动建模和注意力的动作视频分类方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:14:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。