全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210989947.4 (22)申请日 2022.08.18 (71)申请人 薇链信息技 术有限公司 地址 350000 福建省福州市仓山区盘屿路5 号奥体正 祥城(AⅠ小镇)10层10 01-1 (72)发明人 程航 叶贺辉 陈飞 王美清  刘蓉 王靖岳  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 丘鸿超 蔡学俊 (51)Int.Cl. G06T 5/00(2006.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06T 9/00(2006.01) (54)发明名称 小规模数据视 觉语言预训练方法 (57)摘要 本发明提出一种小规模数据视觉语言预训 练方法, 对于图像端, 采用U ‑Net网络, 在编码缺 失图像之后, 在每组对应的下采样和上采样阶段 之间与额外输入的文本特征进行通道注意力, 利 用文本信息来进行图像的补全, 将编码特征和文 本描述特征融合, 输入到解码器中, 解码成一个 正常图像; 对于文本端, 使用双线性注意力网络; 其中, 将文本特征记为X, 图像特征为Y, 注意力权 重图w根据不同模态特征之间的亲和度计算得 到, 在注意力权重图的辅助下, 进行X和Y之间的 特征融合, 最终输出缺失单词的预测结果。 该技 术方案在减少了预训练数据的规模的同时, 提高 了下游任务的表现。 权利要求书2页 说明书9页 附图2页 CN 115330625 A 2022.11.11 CN 115330625 A 1.一种小规模数据视觉语言预训练方法, 其特征在于: 对于图像端的预训练子任务, 采 用U‑Net网络, 在编 码缺失图像之后, 在每组对应的下采样和上采样阶段之间与额外输入的 文本特征进行通道注意力, 利用文本信息来进行图像的补全, 将编码特征和文本描述特征 融合, 输入到解码器中, 解码成一个正常图像; 对于文本端的预训练子任务, 使用双线性注意力网络; 其中, 将文本特征记为X, 图像特 征为Y, 注意力权重图w根据不同模态特征之间的亲和度计算得到, 在注意力权重图的辅助 下, 进行X和Y之间的特 征融合, 最终输出缺失单词的预测结果。 2.根据权利要求1所述的小规模数据视觉语言预训练方法, 其特征在于: 在图像端的预 训练子任务中, 对文本使用文本选择器; 在 文本端对图像使用图像选择器; 所述文本选择器 和图像选择器采用循环神经网络, 逐位的输出每个区域的选择结果; 所述文本选择器的输 入为缺失的图像和完整的文本, 所述图像选择器的输入为 缺失的文本和完整的图像。 3.根据权利要求1所述的小规模数据视 觉语言预训练方法, 其特 征在于: 对于图像端的预训练子任务, 在编码阶段, 从输入图像 中提取多种尺度的视觉特征; 并 通过特征提取得到文本特 征ft, 之后输入到模型当中, 与编码器输出相融合; 解码阶段时, 先通过通道注意力机制将编码后的图像特征和文本特征进行特征融合; 开始时, 特征图通过一个全局池化层转换成一个特征向量, 和文本特征连接到一起后, 输入 到一个带有softmax层的简单前馈神经网络, 从而生 成一个注 意力权重, 最 终被用来更新特 征值, 以得到最终融合的特 征: 下标i∈{1,2, …,cs}表示索引通道, 表示一个标量; U‑Net网络的解码器带有多个反卷积层; 每一个反卷积层的输入由同一阶段的编码层 输出的编 码特征和文本特征结合后得到的融合特征和前一反卷积层的输出连接而成, 第一 个反卷积层使用编 码器最后一层的输出代替前一反卷积层的输出; 最后一层输出的特征图 a, 经过上采样和卷积之后作为 最终的图像输出。 4.根据权利要求3所述的小规模数据视 觉语言预训练方法, 其特 征在于: 在训练过程中, 将子任务总体看成一个像素级别的回归问题, Gif表示图像补全模型, 将 成对的缺失图像Imiss和文本特征ft作为输入, 最终输出补全后的图像Inormal; 原先的正常图 像作为模型的补全目标, 使用一个 像素级的均方误差, 如下 所示: 5.根据权利要求1所述的小规模数据视 觉语言预训练方法, 其特 征在于: 对于文本端的预训练子任务, 对于给定两个模态的特征X, Y, 注意力权重根据不同模态 特征之间的亲和度计算得来: 其中U∈RN×d和V∈RM×d是映射矩阵, 是一个向量, ph∈Rd, 其中 是注意力图索引, 是逐元素乘积; 在注意力权重图的辅助下, 模型进行X和Y之间的特征融合, 并在在模型中使用残差连权 利 要 求 书 1/2 页 2 CN 115330625 A 2接, 在第n个残差块中, 模型输出如下 所示: P∈Rd×c是映射矩阵, X作为模型的初始输入F0, BANh是生成中间特 征的函数, 定义 为: 其中U'∈RN×d,V'∈RM×d, 最后一层BAN网络输出的结果输入到一个多层感知机构建的分类器之后, 最终输出缺 失单词的预测结果。 6.根据权利要求5所述的小规模数据视 觉语言预训练方法, 其特 征在于: 将文本端的预训练子任务当作一个视觉问答问题, Gtf表示文本补全模型, 以成对的缺 失的文本Tmiss和图像特征fi作为模型输入, 最终输出缺失的单词Ttar; 模型预测目标为数据 集的文本里被遮盖掉的部分; 损失函数使用交叉熵损失, 公式如下: 权 利 要 求 书 2/2 页 3 CN 115330625 A 3

.PDF文档 专利 小规模数据视觉语言预训练方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 小规模数据视觉语言预训练方法 第 1 页 专利 小规模数据视觉语言预训练方法 第 2 页 专利 小规模数据视觉语言预训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:15:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。