专利基于关系感知的视频描述生成系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210911326.4 (22)申请日 2022.07.29 (71)申请人复旦大学地址 200433 上海市杨浦区邯郸路2 20号 (72)发明人张玥杰　郑逸　陈晖　景和明　 (74)专利代理机构上海正旦专利代理有限公司 31200 专利代理师陆飞　陆尤 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于关系感知的视频描述生成系统 (57)摘要本发明属于跨媒体生成技术领域，具体为基于关系感知的视频描述生成系统。本发明系统包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络。视频特征提取网络对视频进行帧采样，获取帧级别视觉语义特征与目标对象序列特征及相关信息；关系感知视觉特征编码网络对帧级别视觉语义进行融合，对视频中目标对象序列特征根据关系信息进行重构编码；语言解码网络采用注意力机制融合特征信息，生成最终的描述语句。本发明采用场景图解析模型预提取视频中显著对象间的关系信息，利用图卷积对视频中对象级序列特征进行重构，在生成描述语句时充分利用视频内对象间的空间语义与时序关系信息，使生成更精确，并提高模型对视频视觉信息的理解能力。权利要求书3页说明书7页附图1页 CN 115311598 A 2022.11.08 CN 115311598 A 1.一种基于关系感知的视频描述生成系统，其特征在于，采用图卷积网络，包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络；其中，所述视频特征提取网络对视频进行采样，获取采样帧的特征向量序列，对采样帧进行场景图解析，获取显著目标的特征向量序列以及任意目标对之间的关系预测信息，并输入至关系感知视觉特征编码网络中进行特征重构；所述关系感知视觉特征编码网络从帧和目标两个层级对特征进行重构，融合，并输出整个视频的特征表示，输入至语言解码网络；所述语言解码网络采用注意力机制进一步融合特征信息，采样生成最终的视频描述语句。 2.根据权利要求1所述的视频描述生成系统，其特征在于，所述视频特征提取网络，包含InceptionResnet ‑V2、 I3D深度卷积网络以及场景图解析网络ReIDNs；对视频进行关键帧采样，采样按照等帧数采样，一个视频最终对应于26帧，每一帧通过在ImageNet上预训练的 InceptionResnet ‑V2网络映射为1,536维度的2D特征；以2 6帧为中心抽取出2 6个片段集，通过I3D网络获取视频1,024维的3D特征；同时，通过ReIDNs网络对视频帧序列上的每个关键帧提取场景图特征，所述场景图特征包括该帧内目标对象所提取的特征及两两对象之间的关系预测信息；最终，对于一个视频，其特征包含2D特征、 3D特征以及场景图特征。 3.根据权利要求2所述的视频描述生成系统，其特征在于，所述关系感知视觉特征编码网络，包括帧级别的特征编码网络以及关系感知对象特征增强网络；帧级别的特征编码网络融合2D特征与3D特征，捕捉视频帧级别的视觉语义特征；关系感知对象特征增强网络根据场景图特征，构建视频对象序列空间与时序关系图，以图网络建模并增强对象序列特征；其中：帧级别特征编码网络通过一个双向LSTM网络融合帧级别视觉语义信息，其基本模型定义如下： Va,m＝[Va； Vm]， (1) Vs＝BiLSTM(Va,m)， (2) 其中， Va为视频中提取的2D特征； Vm为3D特征； [； ]表示拼接； Vs即为编码后的帧级别特征表示向量；关系感知对象特征增强网络包括针对对象序列的空间关系感知和时序关系感知两个分支；首先，对于视频中提取出的每一个视频帧，用ReIDNs提取出前n置信度对象的对象特征及其相关信息；接着，用这些所提取的对象作为节点，构建一张存在n个节点的图结构，图中每个节点信息为对象的特征向量；对于图的边，用象征关系信息的邻接矩阵形式进行表示，即如果第i个对象oi存在指向第j个对象oj的关系那么有这样，为所有采样帧构建一个关系感知的空间图，以表示对象之间的语义交互信息；在空间关系图的基础上，空间关系感知分支对特征序列的更新过程定义如下：其中，表示具有d维特征的n个对象序列； Vo,i表示第i个对象的特征向量；是变换矩阵； b是偏差； ρ 表示激活函数； N(Vo,i)表示第i个结点的邻居集合，即与该结点存在权值边的结点集合； lab(Vo,i,Vo,j)表示基于第i个对象和第j个对象之间不同关权　利　要　求　书 1/3 页 2 CN 115311598 A 2系类型的偏差，有：时序关系感知分支将对象序列的时序关系信息融合进对象特征；为了捕捉时序维度上的对象关系信息，对于第t帧中的对象建模其与相邻帧中对象之间的关系，即在相邻帧间建立关系连接；通过计算该对象的特征表示与其相邻的t ±1帧中的对象特征表示之间的欧几里德距离，能评估出该对象与相邻帧内对象的相似性；如果和之间的欧式距离小于阈值λ，即将这一对视频对象视为出现在两个相邻帧中的相同对象，在时序关系图中标记其存在边，并在这两个对象之间建立值为1的连接；关系评估过程表述为：由此，构建出一张无权值的无向图，即为时序关系图在构建好的时序关系图的基础上，图卷积网络得以更新视频的对象特征向量，其过程如下：其中， Wtem与btem为可学习参数； ρ 表示激活函数； N(Vo,i)表示第i个结点的邻居集合；之后，通过多层感知器(MLP)层来融合两个分支更新后的对象特征序列，表示为： V′o＝ρ(Wo[Vo,R； Vo,T]+bo)， (8) 其中， Vo,R； Vo,T分别为更新后的空间关系对象特征序列与时序关系对象特征序列；是可学习的线性变换矩阵； bo是偏差信息； ρ 为激活函数；至此，得到基于关系感知信息增强的视频对象特征表示V′o。 4.根据权利要求3所述的视频描述生成系统，其特征在于，所述语言解码网络，采用循环神经网络作为生成器进行语句生成；采用带注意力机制的双层LSTM网络作为解码器，双层LSTM网络分别为注意力 LSTM与语言解码LSTM；注意力 LSTM融合当前时刻的全局信息，输入注意力模块生成注意力权重；语言解码LSTM进行细粒度解码，最终采用语言解码LSTM的输出预测下一个时刻的单词；注意力LSTM的输入由四个部分组成，分别是上一时刻语言LSTM的隐藏状态上个时刻预测单词的词向量wt‑1、视觉信息编码器输出的帧级别特征向量与对象特征序列向量，其输出为定义如下：其中， We为词向量的嵌入矩阵；表示全局平均后的帧级别特征向量；表示全局平均后的对象特征序列； [； ]表示向量的拼接操作；即为融合后的当前时刻全局信息，将与帧级别特征Vs和对象特征V ′o一同输入至语言解码器的注意力网络；注意力网络的计算过程如权　利　要　求　书 2/3 页 3 CN 115311598 A 3

专利 基于关系感知的视频描述生成系统

专利基于关系感知的视频描述生成系统