专利基于两阶段运动建模和注意力的动作视频分类方法和系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210980577.8 (22)申请日 2022.08.16 (65)同一申请的已公布的文献号申请公布号 CN 115063731 A (43)申请公布日 2022.09.16 (73)专利权人之江实验室地址 311121 浙江省杭州市余杭区之江实验室南湖总部 (72)发明人卢修生　赵思成　程乐超　苏慧　宋明黎　 (74)专利代理机构北京志霖恒远知识产权代理有限公司 1 1435 专利代理师戴莉 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 114494981 A,202 2.05.13 CN 107330362 A,2017.1 1.07 CN 113343950 A,2021.09.0 3 CN 107609460 A,2018.01.19 US 10089556 B1,2018.10.02 张琪等.多模态数据支持的学习投入评测：现状、启示与研究趋向. 《远程教育杂志》 .2020, (第01期), Myeongjun Kim，等.Spati o-Temporal Slowfast Self-A ttention Network For Action Recogn ition. 《2020 IE EE Internati onal Conference o n Image Processing (ICIP)》 .2020, 审查员凡保磊 (54)发明名称基于两阶段运动建模和注意力的动作视频分类方法和系统 (57)摘要本发明公开了一种基于两阶段运动建模和注意力的动作视频分类方法和系统，包括以下步骤：步骤S1：构建采样帧输入至主干网络；步骤 S2：第一阶段段内运动信息建模，输出包含短时运动信息的视频卷积特征；步骤S3：第二阶段段间运动信息建模，输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；步骤 S4：经过全连接层后得到各视频段的分类结果并融合，训练网络。本发明利用卷积神经网络的多层次结构，在网络的较低层和较高层分别提取段内运动信息和段间运动信息，达到分阶段运动综合建模的目的。此外，本发明计算视频卷积特征各空间块之间的注意力关系，使得网络同时具备了卷积操作和注意力机制的短距离和长距离建模能力。权利要求书3页说明书8页附图3页 CN 115063731 B 2022.11.11 CN 115063731 B 1.一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，包括以下步骤：步骤S1：对输入的原始视频进行均匀分段，每个视频段随机采样连续多帧，得到采样帧，并将所有所述采样帧输入至主干网络；步骤S2：在所述主干网络的任意层第s层将所述主干网络进行分段，在所述主干网络的前s层进行第一阶段段内运动信息建模，前s层每层有多个串联组合，所述串联组合由2D卷积和1D按深度卷积构成，在每层利用每个串联组合的2D卷积和1D按深度卷积分别进行空域建模和时域建模，所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征；步骤S3：在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模，后s层每层有多个串联组合，所述串联组合由2D卷积、 1D按深度卷积和空间块注意力模块构成，在每层利用每个串联组合的2D卷积、 1D按深度卷积和空间块注意力模块分别进行空域建模、时域建模和空间块注意力操作，所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；步骤S4：各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果，并将所述分类结果进行平均融合得到原始视频的分类结果，采用交叉熵损失函数对所述主干网络进行训练。 2.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，所述步骤S2具体包括以下子步骤：步骤S21：在所述主干网络的任意层第s层将所述主干网络进行分段，在所述主干网络的前s层进行第一阶段段内运动信息建模；步骤S22：依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息，输出包含短时运动信息的视频卷积特征；步骤S23：通过卷积核大小、填充大小、步长的参数设置，将所述包含短时运动信息的视频卷积特征在时间尺度降为一。 3.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，所述步骤S3具体包括以下子步骤：步骤S31：在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模；步骤S32：以所述包含短时运动信息的视频卷积特征作为输入，依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段之间的长时运动信息，得到融合了短时运动信息和长时运动信息的视频卷积特征；步骤S33：利用空间块注意力模块实现空间上长距离地信息交互，输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。 4.如权利要求3所述的一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，所述步骤S33具体包括以下子步骤：步骤S331：利用空间块注意力模块将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块，得到多个空间块；步骤S332：计算每个空间块与所有空间块之间的相关性矩阵，利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权，得到加权后特征；权　利　要　求　书 1/3 页 2 CN 115063731 B 2步骤S333：将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作，得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。 5.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，所述主干网络基于ResNet5 0模型进行扩展。 6.一种基于两阶段运动建模和注意力的动作视频分类系统，其特征在于，包括：采样模块：用于对输入的原始视频进行均匀分段，每个视频段随机采样连续多帧，得到采样帧，并将所有所述采样帧输入至主干网络；第一阶段段内运动信息建模模块：用于在所述主干网络的任意层第s层将所述主干网络进行分段，在所述主干网络的前s层进行第一阶段段内运动信息建模，前s层每层有多个串联组合，所述串联组合由2D卷积和1D按深度卷积构成，在每层利用每个串联组合的2D卷积和1D按深度卷积分别进行空域建模和时域建模，所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征；第二阶段段间运动信息建模模块：用于在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模，后 s层每层有多个串联组合，所述串联组合由2D卷积、 1D按深度卷积和空间块注意力模块构成，在每层利用每个串联组合的2D卷积、 1D按深度卷积和空间块注意力模块分别进行空域建模、时域建模和空间块注意力操作，所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；融合及训练模块：用于各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果，并将所述分类结果进行平均融合得到原始视频的分类结果，采用交叉熵损失函数对所述主干网络进行训练。 7.如权利要求6所述的一种基于两阶段运动建模和注意力的动作视频分类系统，其特征在于，所述第一阶段段内运动信息建模模块，依次利用2D卷积提取空域表观信息，利用1D 按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息，输出包含短时运动信息的视频卷积特征；并且通过卷积核大小、填充大小、步长的参数设置，使得所述包含短时运动信息的视频卷积特征在时间尺度降为一。 8.如权利要求6所述的一种基于两阶段运动建模和注意力的动作视频分类系统，其特征在于，所述第二阶段段间运动信息建模模块，以所述包含短时运动信息的视频卷积特征作为输入，依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段之间的长时运动信息，得到融合了短时运动信息和长时运动信息的视频卷积特征；然后利用空间块注意力模块实现空间上长距离地信息交互，输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。 9.如权利要求8所述的一种基于两阶段运动建模和注意力的动作视频分类系统，其特征在于，所述空间块注意力模块用于将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块后，计算每个空间块与所有空间块之间的相关性矩阵

专利 基于两阶段运动建模和注意力的动作视频分类方法和系统

专利基于两阶段运动建模和注意力的动作视频分类方法和系统