(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210980578.2
(22)申请日 2022.08.16
(65)同一申请的已公布的文献号
申请公布号 CN 115063732 A
(43)申请公布日 2022.09.16
(73)专利权人 之江实验室
地址 311121 浙江省杭州市余杭区之江实
验室南湖总部
(72)发明人 卢修生 赵思成 程乐超 苏慧
宋明黎
(74)专利代理 机构 北京志霖恒远知识产权代理
有限公司 1 1435
专利代理师 戴莉
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 111311490 A,2020.0 6.19
CN 114494981 A,202 2.05.13
CN 107169415 A,2017.09.15
CN 109035267 A,2018.12.18
WO 2022036141 A1,202 2.02.17
CN 112699786 A,2021.04.23
Md Moniruzzaman, 等.Human Acti on
Recognition by Discrimi native F eature
Pooling and Video Segment A ttention
Model. 《IE EE Transacti ons on Multimedia》
.2021,
赵朵朵等.基于深度学习的视频行为识别方
法综述. 《电信科 学》 .2019,(第12期),
审查员 凡保磊
(54)发明名称
基于双流多分辨率综合建模的动作视频分
类方法和系统
(57)摘要
本发明公开了基于双流多分辨率综合建模
的动作视频分类方法和系统, 包括以下步骤: 步
骤S1: 从视频样本中构建高分辨率稀疏采样帧和
低分辨率稠密采样帧两种网络输入; 步骤S2: 所
提出的双流多分辨率建模网络包含两个 分支, 分
别处理这两种输入; 步骤S3: 利用侧边连接进行
特征融合, 得到融合后的空域卷积特征; 步骤S4:
两个分支得到的视频卷积特征分别经过2D池化
操作和3D 池化操作进行时空对齐, 并在加权融合
后输入全连接层, 得到各视频段的预测结果; 步
骤S5: 将各视频段的预测结果均匀融合得到原始
视频的分类结果, 进行网络训练。 本发明基于时
空多层次建模思想, 分别构建两种网络输入, 这
两种输入包含互补的空域表观和时域运动信息,且降低运 算开销。
权利要求书2页 说明书7页 附图3页
CN 115063732 B
2022.11.11
CN 115063732 B
1.一种基于双流多分辨 率综合建模的动作视频分类方法, 其特 征在于, 包括以下步骤:
步骤S1: 对输入的视频样本按照两种不同的频率在时域上进行均匀分段, 从每个视频
段中随机采样视频帧, 得到两种不同的采样帧, 包括高分辨率稀疏采样帧和低分辨率稠密
采样帧;
步骤S2: 构建双流多分辨率建模网络, 所述双流多分辨率建模网络包括高分辨率稀疏
采样分支和低分辨率稠密 采样分支, 所述高分辨率稀疏采样帧作为所述高分辨率稀疏采样
分支的输入进行空域建模, 得到空域卷积特征, 所述低分辨率稠密采样帧作为所述低分辨
率稠密采样分支的输入进行时空建模, 得到时空卷积特 征;
步骤S3: 所述低分辨率稠密采样分支各层输出的时空卷积特征通过侧边连接, 融合到
所述高分辨 率稀疏采样分支对应各层的空域卷积特 征中, 得到融合后的空域卷积特 征;
步骤S4: 对所述高分辨率稀疏采样分支和所述低分辨率稠密采样分支分别 采用2D池化
操作和3D池化操作, 将所述融合后的空域卷积特征和所述时空卷积特征进行时空对齐, 并
将对齐后的特 征进行加权融合后, 共同输入 全连接层, 得到每 个视频段的预测结果;
步骤S5: 将每个视频段的预测结果均匀融合得到原始视频的分类结果, 采用交叉熵损
失函数对所述双流多分辨 率建模网络进行训练。
2.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法, 其特征
在于, 所述步骤S1 中, 对输入的视频样 本按照两种不同的频率在时域上进 行均匀分段, 对于
按第一种频率时域分段对应的视频帧保留原有分辨率得到高分辨率稀疏采样帧, 对于按第
二种频率时域分段对应的视频帧进行 空间下采样得到低分辨率稠密采样帧, 所述第一种频
率的时域分段 数目低于所述第二种频率的时域分段 数目。
3.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法, 其特征
在于, 所述步骤S2中所述高分辨率稀疏采样分支和所述低分辨率稠密采样分支基于
ResNet50网络框架进行扩展。
4.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法, 其特征
在于, 所述步骤S2中所述高分辨率稀疏采样分支在各块中使用2D卷积进行空域建模, 所述
低分辨率稠密采样分支在各块中使用2D卷积、 1D按通道卷积、 1*1卷积和残差连接进行时空
建模。
5.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法, 其特征
在于, 所述步骤S 3中所述低分辨率稠密采样分支各层输出的时空卷积特征与对应的所述高
分辨率稀疏采样分支各层输出的空域卷积特征基于各自的权重, 通过加权融合操作得到融
合后的空域卷积特 征。
6.如权利要求1所述的一种基于双流多分辨率综合建模的动作视频分类方法, 其特征
在于, 所述 步骤S4具体包括以下子步骤:
步骤S41: 对所述高分辨率稀疏采样分支 的最后一个卷积层输出的融合后的空域卷积
特征采用2D池化操作;
步骤S42: 对所述低分辨率稠密采样分支 的最后一个卷积层输出的时空卷积特征采用
3D池化操作;
步骤S43: 将所述融合后的空域卷积特 征和所述时空卷积特 征进行时空对齐;
步骤S44: 对池化操作后的特征利用融合权重进行加权融合操作后, 共同输入全连接权 利 要 求 书 1/2 页
2
CN 115063732 B
2层, 得到每 个视频段的预测结果。
7.一种基于双流多分辨 率综合建模的动作视频分类系统, 其特 征在于, 包括:
采样模块: 用于对输入的视频样本按照两种不同的频率进行时域均匀分段, 从每个视
频段中随机采样视频帧, 得到两种不同的采样帧, 包括高分辨率稀疏采样帧和低分辨率稠
密采样帧;
双流多分辨率网络模块: 用于构建双流多分辨率建模网络, 所述双流多分辨率建模网
络包括高分辨率稀疏采样分支和 低分辨率稠密 采样分支, 所述高分辨率稀疏采样帧作为所
述高分辨率稀疏采样分支的输入进行空域建模, 得到空域卷积特征, 所述低分辨率稠密采
样帧作为所述低分辨 率稠密采样分支的输入进行时空建模, 得到时空卷积特 征;
侧边连接模块: 用于将所述低分辨率稠密采样分支各层输出的时空卷积特征通过侧边
连接, 融合到所述高分辨率稀疏采样分支对应各层的空域卷积特征中, 得到融合后的空域
卷积特征;
预测模块: 用于对所述高分辨率稀疏采样分支和所述低分辨率稠密采样分支分别采用
2D池化操作和3D池化操作, 将所述融合后的空域卷积特征和所述时空卷积特征进 行时空对
齐, 并将对齐后的特 征进行加权融合后, 共同输入 全连接层, 得到每 个视频段的预测结果;
融合及训练模块: 用于将每个视频段的预测结果均匀融合得到原始视频的分类结果,
采用交叉熵损失函数对所述双流多分辨 率建模网络进行训练。
8.如权利要求7所述的一种基于双流多分辨率综合建模的动作视频分类系统, 其特征
在于, 所述采样模块中, 对输入的视频样本按照两种不同的频率进 行时域均匀分段, 对于按
第一种频率时域分段对应的视频帧保留原有分辨率得到高分辨率稀疏采样帧, 对于按第二
种频率时域分段对应的视频帧进 行空间下采样得到低分辨率稠密 采样帧, 所述第一种频率
的时域分段 数目低于所述第二种频率的时域分段 数目。
9.如权利要求7所述的一种基于双流多分辨率综合建模的动作视频分类系统, 其特征
在于, 所述高分辨率稀疏采样分支用于在各块中使用2D卷积进行空域建模, 所述低分辨率
稠密采样分支用于在各块中使用2D卷积、 1D按通道卷积、 1*1卷积和残差连接进行时空建
模。
10.如权利要求7所述的一种基于双流多分辨率综合建模的动作视频分类系统, 其特征
在于, 所述低分辨率稠密 采样分支各层输出的时空卷积特征与对应的所述高分辨率稀疏采
样分支各层输出的空域卷积特征基于各自的权重, 通过加权融合操作得到融合后的空域卷
积特征。权 利 要 求 书 2/2 页
3
CN 115063732 B
3
专利 基于双流多分辨率综合建模的动作视频分类方法和系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:14:25上传分享