专利基于多尺度跨模态特征融合的指代表达理解方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211009462.0 (22)申请日 2022.08.22 (71)申请人西北工业大学地址 710072 陕西省西安市友谊西路 (72)发明人王鹏　孙梦阳　张艳宁　索伟　 (74)专利代理机构西安凯多思知识产权代理事务所(普通合伙) 61290 专利代理师刘新琼 (51)Int.Cl. G06V 10/86(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于多尺度跨模态特征融合的指代表达理解方法 (57)摘要本发明涉及一种基于多尺度跨模态特征融合的指代表达理解方法，基于语言图像多模态融合领域。在跨模态特征融合过程中结合了线性特征调制和视觉引导语言注意力模块进行特征融合，同时该模型利用了语言进行选择和筛选多尺度网格级特征，从低级和高级融合特征中自适应地选择关键线索，并通过动态路由在跨尺度信息之间建立关系。实验结果表明，新的模型架构在多个基准测试中达到了新的最先进水平，并为 REC研究提供了新的见解和方向。权利要求书3页说明书8页附图1页 CN 115496991 A 2022.12.20 CN 115496991 A 1.一种基于多尺度跨模态特征融合的指代表达理解方法，其特征在于步骤如下：步骤1：图片首先调整为相同的大小，然后经过Resnet ‑101提取出n个尺度的特征图，再通过1×1卷积映射到相同的维度d得到针对语言信息，先将语言信息分解为词，通过词嵌入后得到各个词对应的特征向量，规定最长的语句词数为T，词数不足T的语句空白处用PAD标识填充；语句开始位置添加 CLS标识，语句结尾添加SEP标识；将经过位置编码后的词向量输入进BERT网络，得到融合语句信息的各个词汇的特征向量步骤2：将E和V输入到模型的跨模态交互注意力模块中，该模块由两部分组成，线性特征调制模块FiLM和视觉引导的语言注意力模块；在FiLM模块中，应用了基于特征的仿射变换来自适应地影响网络的输出，对于给定的语言特征先通过平均策略获得整个表达式EF，之后具体通过：其中和是两个具有激活函数Tanh的多层感知器MLP的权重和偏差，对于公式(3)， ⊙和⊕分别表示按元素逐位乘法和加法；最后，应用标准的3 ×3卷积和ReLU 操作来产生多级融合特征对于视觉引导语言注意力模块，首先将视觉特征Vi展平为其中Ni＝Hi ×Wi是视觉标记的特征个数，然后根据语言特征E和视觉特征Zi由下式计算：其中和是嵌入矩阵，该注意力模块中的查询、键和值分别用Q、 K和V表示； m是注意力头的数量， d为特征维度，为了简单起见，只为每一级视觉特征使用一个语言注意力模块；之后， Ai由两个带有残差连接的前馈网络FFN进一步编码，形成融合后的输出通过连接Ff和Ft得到Fft，然后使用三个1 ×1卷积层将Fft映射到维度d；最后，得到组合的特征步骤3：构建语言引导的特征金字塔模块FPN 首先构建了一个深度为K的路由空间，在这个路由空间中，相邻阶段之间的比例因子被限制为2；对于每个路由节点，输入由两部分组成：多级特征图和基于注意力机制的语言向权　利　要　求　书 1/3 页 2 CN 115496991 A 2量；每个路由节点中的每个尺度的网格级特征由语言门硬选择；首先，经过语言门的输入由两部分组成：多级特征图和基于注意力机制的语言向量；基于注意力机制的语言向量以下公式得到： ak＝softmax(EWk) (5) 其中Wk∈R256×1是学习权重， k表示深度，将共享给每个尺度和网格特征；多尺度特征图可以表示为其中i是第i个尺度， k是第k层， N＝(Hi×Wi)；语言门通过语言向量动态选择中的网格级特征，具体操作如下： *和·分别表示卷积运算和Hadamar d乘积； conv( ·)表示一个3 ×3卷积网络， σ( ·)是激活函数；这里使用tanh，即max(0,tahn( ·))作为门开关；当输入为负时，该函数的输出始终为0，这使得在推理阶段不需要额外的阈值；之后，将输出Yi,k按照从小尺度到大尺度分别进行上采样、保持不变和下采样操作；具体操作如下：使用来表示路由节点I中的聚合输出，中的细粒度特征由联合门进一步细化，具体地，将通过以下方式计算：其中conv是一个1 ×1的卷积网络，它将输入特征映射到一个通道中， l表示第l的节点；最后一层的节点将用作多尺度融合，融合方式如下：公式(11)将不同节点的信息汇总起来得到FAVG，它将用作检测头的输入；步骤4：使用无锚检测头来定位目标对于步骤3的输出FAVG，首先使用一个1 ×1的卷积层得到一个形状为w ×h×5的特征图，表示五个预测值{tx,ty,tw,tht}，其中前两个值表示中心偏移， tw和th分别表示归一化的宽度和高度；最后一个t是置信度分数，表示该位置是否存在对象的中心点；最后，在中心点t 上应用交叉熵损失Lcls，在中心偏移、宽度和高度上应用MSE损失Loff；同时，使用GIoU损失作为辅助损失；最后将整个函数定义为：权　利　要　求　书 2/3 页 3 CN 115496991 A 3

专利 基于多尺度跨模态特征融合的指代表达理解方法

专利基于多尺度跨模态特征融合的指代表达理解方法