全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211009462.0 (22)申请日 2022.08.22 (71)申请人 西北工业大 学 地址 710072 陕西省西安市友谊西路 (72)发明人 王鹏 孙梦阳 张艳宁 索伟  (74)专利代理 机构 西安凯多 思知识产权代理事 务所(普通 合伙) 61290 专利代理师 刘新琼 (51)Int.Cl. G06V 10/86(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于多尺度跨模态特征融合的指代表达理 解方法 (57)摘要 本发明涉及一种基于多尺度跨模态特征融 合的指代表达理解方法, 基于语言图像多模态融 合领域。 在跨模态特征融合过程中结合了线性特 征调制和视觉引导语言注意力模块进行特征融 合, 同时该模 型利用了语言进行选择和筛选多尺 度网格级特征, 从低级和高级融合特征中自适应 地选择关键线索, 并通过动态路由在跨尺度信息 之间建立关系。 实验结果表明, 新的模型架构在 多个基准测试中达到了新的最先进水平, 并为 REC研究提供了新的见解和方向。 权利要求书3页 说明书8页 附图1页 CN 115496991 A 2022.12.20 CN 115496991 A 1.一种基于多尺度跨模态特 征融合的指代 表达理解方法, 其特 征在于步骤如下: 步骤1: 图片首先调整为相同的大小, 然后经过Resnet ‑101提取出n个尺度的特征图, 再 通过1×1卷积映射到相同的维度d得到 针对语言信息, 先将语言信息分解为 词, 通过词嵌入后得到各个词对应的特征向量, 规定最长的语句词数为T, 词数不 足T的语句 空白处用PAD标识填充; 语句开始位置添加 CLS标识, 语句结尾添加SEP标识; 将经过位置编 码后的词向量输入进BERT网络, 得到融合语句信息的各个词汇的特 征向量 步骤2: 将E和V输入到模型的跨模态交互注意力模块中, 该模块由两部分组成, 线性特 征调制模块FiLM和视觉引导的语言注意力模块; 在FiLM模块中, 应用了基于特征的仿射变 换来自适应地影响网络的输出, 对于给定的语言特征 先通过平均策略获得整 个表达式EF, 之后具体通过: 其中 和 是两个具有激活函数Tanh的多层感知器MLP的权重和偏差, 对于公式(3), ⊙和⊕分别表示按元素逐位乘法和加法; 最后, 应用标准的3 ×3卷积和ReLU 操作来产生多 级融合特 征 对于视觉引导语言注意力模块, 首先将视觉特征Vi展平为 其中Ni=Hi ×Wi是视觉标记的特 征个数, 然后根据语言特 征E和视觉特征Zi由下式计算: 其中 和 是嵌入矩阵, 该注意力模块中的查询、 键和值分别用Q、 K和V表示; m是注意力头的数量, d为特征维度, 为了简 单起见, 只为每一级视觉特征使用 一个语言注意力模块; 之后, Ai由两个带有残差连接的前馈网络FFN进一步编码, 形成融合 后的输出 通过连接Ff和Ft得到Fft, 然后使用三个1 ×1卷积层将Fft映射到维度d; 最后, 得到组合 的特征 步骤3: 构建语言引导的特 征金字塔模块FPN 首先构建了一个深度为K的路由空间, 在这个路由空间中, 相邻阶段之间的比例因子被 限制为2; 对于每个路由节点, 输入由两部分组成: 多级特征图和 基于注意力机制的语言向权 利 要 求 书 1/3 页 2 CN 115496991 A 2量; 每个路由节点中的每 个尺度的网格级特 征由语言门硬选择; 首先, 经过语言门的输入由两部分组成: 多级特征图和基于注意力 机制的语言 向量; 基 于注意力机制的语言向量以下公式得到: ak=softmax(EWk)          (5) 其中Wk∈R256×1是学习权重, k表示深度, 将共享给每个尺度和网格特征; 多尺度 特征 图可以表示为 其中i是第i个尺度, k是第k层, N=(Hi×Wi); 语言门通过 语言向量动态选择 中的网格级特 征, 具体操作如下: *和·分别表示卷积运算和Hadamar d乘积; conv( ·)表示一个3 ×3卷积网络, σ( ·)是 激活函数; 这里使用tanh, 即max(0,tahn( ·))作为门开关; 当输入为负时, 该函数的输出始 终为0, 这使得在推理阶段不需要额外的阈值; 之后, 将输出Yi,k按照从小尺度到大尺度分别进行上采样、 保持不变和下采样操作; 具 体操作如下: 使用 来表示路由节点I中的聚合输出, 中的细粒度特征由联合门进一步细化, 具 体地, 将通过以下 方式计算: 其中conv是一个1 ×1的卷积网络, 它将输入特征映射到一个通道中, l表示第l的节点; 最后一层的节点将用作多尺度融合, 融合方式如下: 公式(11)将不同节点的信息汇总起 来得到FAVG, 它将用作检测头的输入; 步骤4: 使用无锚检测头来定位目标 对于步骤3的输出FAVG, 首先使用一个1 ×1的卷积层得到一个形状为w ×h×5的特征图, 表示五个预测值{tx,ty,tw,tht}, 其中前两个值表示中心偏移, tw和th分别表示归一化的宽 度和高度; 最后一个t是置信度分数, 表示该位置是否存在对象的中心点; 最后, 在中心点t 上应用交叉熵损失Lcls, 在中心偏移、 宽度和高度上应用MSE损失Loff; 同时, 使用GIoU损失作 为辅助损失; 最后将整个函数定义 为:权 利 要 求 书 2/3 页 3 CN 115496991 A 3

.PDF文档 专利 基于多尺度跨模态特征融合的指代表达理解方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多尺度跨模态特征融合的指代表达理解方法 第 1 页 专利 基于多尺度跨模态特征融合的指代表达理解方法 第 2 页 专利 基于多尺度跨模态特征融合的指代表达理解方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:14:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。