(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210911326.4
(22)申请日 2022.07.29
(71)申请人 复旦大学
地址 200433 上海市杨 浦区邯郸路2 20号
(72)发明人 张玥杰 郑逸 陈晖 景和明
(74)专利代理 机构 上海正旦专利代理有限公司
31200
专利代理师 陆飞 陆尤
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于关系感知的视频描述 生成系统
(57)摘要
本发明属于跨媒体生成技术领域, 具体为基
于关系感知的视频描述生 成系统。 本发明系统包
括视频特征提取网络、 关系感知视觉特征编码网
络、 语言解码网络。 视频特征提取网络对视频进
行帧采样, 获取帧级别视觉语义特征与目标对象
序列特征及相关信息; 关系感知视觉特征编码网
络对帧级别视觉语义进行融合, 对视频中目标对
象序列特征根据关系信息进行重构编码; 语言解
码网络采用注 意力机制融合特征信息, 生成最终
的描述语句。 本发明采用场景图解析模型预提取
视频中显著对象间的关系信息, 利用图卷积对视
频中对象级序列特征进行重构, 在生成描述语句
时充分利用视频内对象间的空间语义与时序关
系信息, 使生成更精确, 并提高模型对视频视觉
信息的理解能力。
权利要求书3页 说明书7页 附图1页
CN 115311598 A
2022.11.08
CN 115311598 A
1.一种基于关系感知的视频描述生成系统, 其特征在于, 采用图卷积网络, 包括视频特
征提取网络、 关系感知视觉特征编码网络、 语言解码网络; 其中, 所述视频特征提取网络对
视频进行采样, 获取采样帧的特征向量序列, 对采样帧进行场景图解析, 获取显著目标的特
征向量序列以及任意目标对之 间的关系预测信息, 并输入至关系感知视觉特征编 码网络中
进行特征重构; 所述关系感知视觉特征编码网络从帧和目标两个层级对特征进行重构, 融
合, 并输出整个视频的特征表 示, 输入至语言解码网络; 所述语 言解码网络采用注意力机制
进一步融合特 征信息, 采样生成最终的视频描述语句。
2.根据权利要求1所述的视频描述生成系统, 其特征在于, 所述视频特征提取网络, 包
含InceptionResnet ‑V2、 I3D深度卷积网络以及场景图解析网络ReIDNs; 对视频进行关键帧
采样, 采样按照等帧数采样, 一个视频最终对应于26帧, 每一帧通过在ImageNet上预训练的
InceptionResnet ‑V2网络映射为1,536维度的2D特征; 以2 6帧为中心抽取出2 6个片段集, 通
过I3D网络获取视频1,024维 的3D特征; 同时, 通过ReIDNs网络对视频帧序列上的每个关键
帧提取场景图特征, 所述场景图特征包括该帧内目标对象所提取的特征及两两对象之 间的
关系预测信息; 最终, 对于一个视频, 其特 征包含2D特征、 3D特征以及场景图特 征。
3.根据权利要求2所述的视频描述生成系统, 其特征在于, 所述关系感知视觉特征编码
网络, 包括帧级别的特征编码网络以及关系感知对 象特征增强网络; 帧级别的特征编码网
络融合2D特征与3D特征, 捕捉视频帧级别的视觉语义特征; 关系感知对象特征增强网络根
据场景图特征, 构建视频对象序列空间与时序关系图, 以图网络 建模并增强对象序列特征;
其中:
帧级别特征编码网络通过一个双向LSTM网络融合帧级别视觉语义信息, 其基本模型定
义如下:
Va,m=[Va; Vm], (1)
Vs=BiLSTM(Va,m), (2)
其中, Va为视频中提取的2D特征; Vm为3D特征; [; ]表示拼接; Vs即为编码后的帧级别特
征表示向量;
关系感知对象特征增强网络包括针对对象序列的空间关系感知和时序关系感知两个
分支; 首先, 对于视频中提取出的每一个视频帧, 用ReIDNs提取出前n置信度对象的对象特
征及其相关信息; 接着, 用这些所提取的对象作为节点, 构建一张存在n个节 点的图结构, 图
中每个节点信息为对 象的特征向量; 对于图的边, 用象征关系信息的邻接矩阵形式进行表
示, 即
如果第i个对象oi存在指向第j个对象oj的关系
那么有
这样, 为所有采样帧构建一个关系感知 的空间图, 以表示对象之间的语
义交互信息;
在空间关系图的基础上, 空间关系感知分支对特 征序列的更新过程定义如下:
其中,
表示具有d维特征的n个对象序列; Vo,i表示第i个对象的特征向量;
是变换矩阵; b是偏差; ρ 表示激活函数; N(Vo,i)表示第i个结点的邻居集合, 即与
该结点存在权值边的结点集合; lab(Vo,i,Vo,j)表示基于第i个对象和第j个对象之间不同关权 利 要 求 书 1/3 页
2
CN 115311598 A
2系类型的偏差, 有:
时序关系感知分支将对象序列的时序关系信 息融合进对象特征; 为了捕捉 时序维度 上
的对象关系信息, 对于第t帧中 的对象
建模其与相邻帧中对象之间的关系, 即在相邻帧
间建立关系连接; 通过计算该对象的特征表示与其相邻的t ±1帧中的对象特征表示
之
间的欧几里德距离, 能评估出该对象
与相邻帧内对象的相似性; 如果
和
之间的欧
式距离小于阈值λ, 即将这一对视频对象视为出现在两个相 邻帧中的相同对象, 在时序关系
图中标记其存在边, 并在这两个对象之间建立 值为1的连接; 关系评估过程表述 为:
由此, 构建出一张无权值的无向图, 即为时序关系图
在构建好的时序
关系图的基础上, 图卷积网络得以更新视频的对象特 征向量, 其过程如下:
其中, Wtem与btem为可学习参数; ρ 表示激活函数; N(Vo,i)表示第i个结点的邻居集 合;
之后, 通过多层感知器(MLP)层来融合两个分支更新后的对象特 征序列, 表示 为:
V′o=ρ(Wo[Vo,R; Vo,T]+bo), (8)
其中, Vo,R; Vo,T分别为更新后的空间关系对象特征序列与时序关系对象特征序列;
是可学习的线 性变换矩阵; bo是偏差信息; ρ 为激活函数; 至此, 得到基于关系感
知信息增强的视频对象特 征表示V′o。
4.根据权利要求3所述的视频描述生成系统, 其特征在于, 所述语言解码网络, 采用循
环神经网络作为生成器进行语句生成; 采用带注意力机制的双层LSTM网络作为解码器, 双
层LSTM网络分别 为注意力 LSTM与语言解码LSTM; 注意力 LSTM融合当前时刻的全局信息, 输
入注意力模块生成注意力权重; 语言解码LSTM进行细粒度解码, 最终采用语言解码LSTM的
输出预测下一个时刻的单词;
注意力LSTM的输入由四个部分组成, 分别是上一时刻语言LSTM的隐藏状态
上个时
刻预测单词的词向量wt‑1、 视觉信息编码 器输出的帧级别特征向量与对象特征序列向量, 其
输出为
定义如下:
其中, We为词向量的嵌入矩阵;
表示全局平均后的帧级别特征向量;
表示全局平均
后的对象特征序列; [; ]表示向量的拼接操作;
即为融合后的当前时刻全局信息, 将与帧
级别特征Vs和对象特征V ′o一同输入 至语言解码器的注意力网络; 注意力网络的计 算过程如权 利 要 求 书 2/3 页
3
CN 115311598 A
3
专利 基于关系感知的视频描述生成系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:14:18上传分享