专利基于双流多分辨率综合建模的动作视频分类方法和系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210980578.2 (22)申请日 2022.08.16 (65)同一申请的已公布的文献号申请公布号 CN 115063732 A (43)申请公布日 2022.09.16 (73)专利权人之江实验室地址 311121 浙江省杭州市余杭区之江实验室南湖总部 (72)发明人卢修生　赵思成　程乐超　苏慧　宋明黎　 (74)专利代理机构北京志霖恒远知识产权代理有限公司 1 1435 专利代理师戴莉 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 111311490 A,2020.0 6.19 CN 114494981 A,202 2.05.13 CN 107169415 A,2017.09.15 CN 109035267 A,2018.12.18 WO 2022036141 A1,202 2.02.17 CN 112699786 A,2021.04.23 Md Moniruzzaman，等.Human Acti on Recognition by Discrimi native F eature Pooling and Video Segment A ttention Model. 《IE EE Transacti ons on Multimedia》 .2021, 赵朵朵等.基于深度学习的视频行为识别方法综述. 《电信科学》 .2019,(第12期), 审查员凡保磊 (54)发明名称基于双流多分辨率综合建模的动作视频分类方法和系统 (57)摘要本发明公开了基于双流多分辨率综合建模的动作视频分类方法和系统，包括以下步骤：步骤S1：从视频样本中构建高分辨率稀疏采样帧和低分辨率稠密采样帧两种网络输入；步骤S2：所提出的双流多分辨率建模网络包含两个分支，分别处理这两种输入；步骤S3：利用侧边连接进行特征融合，得到融合后的空域卷积特征；步骤S4：两个分支得到的视频卷积特征分别经过2D池化操作和3D 池化操作进行时空对齐，并在加权融合后输入全连接层，得到各视频段的预测结果；步骤S5：将各视频段的预测结果均匀融合得到原始视频的分类结果，进行网络训练。本发明基于时空多层次建模思想，分别构建两种网络输入，这两种输入包含互补的空域表观和时域运动信息，且降低运算开销。权利要求书2页说明书7页附图3页 CN 115063732 B 2022.11.11 CN 115063732 B 1.一种基于双流多分辨率综合建模的动作视频分类方法，其特征在于，包括以下步骤：步骤S1：对输入的视频样本按照两种不同的频率在时域上进行均匀分段，从每个视频段中随机采样视频帧，得到两种不同的采样帧，包括高分辨率稀疏采样帧和低分辨率稠密采样帧；步骤S2：构建双流多分辨率建模网络，所述双流多分辨率建模网络包括高分辨率稀疏采样分支和低分辨率稠密采样分支，所述高分辨率稀疏采样帧作为所述高分辨率稀疏采样分支的输入进行空域建模，得到空域卷积特征，所述低分辨率稠密采样帧作为所述低分辨率稠密采样分支的输入进行时空建模，得到时空卷积特征；步骤S3：所述低分辨率稠密采样分支各层输出的时空卷积特征通过侧边连接，融合到所述高分辨率稀疏采样分支对应各层的空域卷积特征中，得到融合后的空域卷积特征；步骤S4：对所述高分辨率稀疏采样分支和所述低分辨率稠密采样分支分别采用2D池化操作和3D池化操作，将所述融合后的空域卷积特征和所述时空卷积特征进行时空对齐，并将对齐后的特征进行加权融合后，共同输入全连接层，得到每个视频段的预测结果；步骤S5：将每个视频段的预测结果均匀融合得到原始视频的分类结果，采用交叉熵损失函数对所述双流多分辨率建模网络进行训练。 2.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法，其特征在于，所述步骤S1 中，对输入的视频样本按照两种不同的频率在时域上进行均匀分段，对于按第一种频率时域分段对应的视频帧保留原有分辨率得到高分辨率稀疏采样帧，对于按第二种频率时域分段对应的视频帧进行空间下采样得到低分辨率稠密采样帧，所述第一种频率的时域分段数目低于所述第二种频率的时域分段数目。 3.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法，其特征在于，所述步骤S2中所述高分辨率稀疏采样分支和所述低分辨率稠密采样分支基于 ResNet50网络框架进行扩展。 4.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法，其特征在于，所述步骤S2中所述高分辨率稀疏采样分支在各块中使用2D卷积进行空域建模，所述低分辨率稠密采样分支在各块中使用2D卷积、 1D按通道卷积、 1*1卷积和残差连接进行时空建模。 5.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法，其特征在于，所述步骤S 3中所述低分辨率稠密采样分支各层输出的时空卷积特征与对应的所述高分辨率稀疏采样分支各层输出的空域卷积特征基于各自的权重，通过加权融合操作得到融合后的空域卷积特征。 6.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法，其特征在于，所述步骤S4具体包括以下子步骤：步骤S41：对所述高分辨率稀疏采样分支的最后一个卷积层输出的融合后的空域卷积特征采用2D池化操作；步骤S42：对所述低分辨率稠密采样分支的最后一个卷积层输出的时空卷积特征采用 3D池化操作；步骤S43：将所述融合后的空域卷积特征和所述时空卷积特征进行时空对齐；步骤S44：对池化操作后的特征利用融合权重进行加权融合操作后，共同输入全连接权　利　要　求　书 1/2 页 2 CN 115063732 B 2层，得到每个视频段的预测结果。 7.一种基于双流多分辨率综合建模的动作视频分类系统，其特征在于，包括：采样模块：用于对输入的视频样本按照两种不同的频率进行时域均匀分段，从每个视频段中随机采样视频帧，得到两种不同的采样帧，包括高分辨率稀疏采样帧和低分辨率稠密采样帧；双流多分辨率网络模块：用于构建双流多分辨率建模网络，所述双流多分辨率建模网络包括高分辨率稀疏采样分支和低分辨率稠密采样分支，所述高分辨率稀疏采样帧作为所述高分辨率稀疏采样分支的输入进行空域建模，得到空域卷积特征，所述低分辨率稠密采样帧作为所述低分辨率稠密采样分支的输入进行时空建模，得到时空卷积特征；侧边连接模块：用于将所述低分辨率稠密采样分支各层输出的时空卷积特征通过侧边连接，融合到所述高分辨率稀疏采样分支对应各层的空域卷积特征中，得到融合后的空域卷积特征；预测模块：用于对所述高分辨率稀疏采样分支和所述低分辨率稠密采样分支分别采用 2D池化操作和3D池化操作，将所述融合后的空域卷积特征和所述时空卷积特征进行时空对齐，并将对齐后的特征进行加权融合后，共同输入全连接层，得到每个视频段的预测结果；融合及训练模块：用于将每个视频段的预测结果均匀融合得到原始视频的分类结果，采用交叉熵损失函数对所述双流多分辨率建模网络进行训练。 8.如权利要求7所述的一种基于双流多分辨率综合建模的动作视频分类系统，其特征在于，所述采样模块中，对输入的视频样本按照两种不同的频率进行时域均匀分段，对于按第一种频率时域分段对应的视频帧保留原有分辨率得到高分辨率稀疏采样帧，对于按第二种频率时域分段对应的视频帧进行空间下采样得到低分辨率稠密采样帧，所述第一种频率的时域分段数目低于所述第二种频率的时域分段数目。 9.如权利要求7所述的一种基于双流多分辨率综合建模的动作视频分类系统，其特征在于，所述高分辨率稀疏采样分支用于在各块中使用2D卷积进行空域建模，所述低分辨率稠密采样分支用于在各块中使用2D卷积、 1D按通道卷积、 1*1卷积和残差连接进行时空建模。 10.如权利要求7所述的一种基于双流多分辨率综合建模的动作视频分类系统，其特征在于，所述低分辨率稠密采样分支各层输出的时空卷积特征与对应的所述高分辨率稀疏采样分支各层输出的空域卷积特征基于各自的权重，通过加权融合操作得到融合后的空域卷积特征。权　利　要　求　书 2/2 页 3 CN 115063732 B 3

专利 基于双流多分辨率综合建模的动作视频分类方法和系统

专利基于双流多分辨率综合建模的动作视频分类方法和系统