专利小规模数据视觉语言预训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210989947.4 (22)申请日 2022.08.18 (71)申请人薇链信息技术有限公司地址 350000 福建省福州市仓山区盘屿路5 号奥体正祥城(AⅠ小镇)10层10 01-1 (72)发明人程航　叶贺辉　陈飞　王美清　刘蓉　王靖岳　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师丘鸿超　蔡学俊 (51)Int.Cl. G06T 5/00(2006.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06T 9/00(2006.01) (54)发明名称小规模数据视觉语言预训练方法 (57)摘要本发明提出一种小规模数据视觉语言预训练方法，对于图像端，采用U ‑Net网络，在编码缺失图像之后，在每组对应的下采样和上采样阶段之间与额外输入的文本特征进行通道注意力，利用文本信息来进行图像的补全，将编码特征和文本描述特征融合，输入到解码器中，解码成一个正常图像；对于文本端，使用双线性注意力网络；其中，将文本特征记为X，图像特征为Y，注意力权重图w根据不同模态特征之间的亲和度计算得到，在注意力权重图的辅助下，进行X和Y之间的特征融合，最终输出缺失单词的预测结果。该技术方案在减少了预训练数据的规模的同时，提高了下游任务的表现。权利要求书2页说明书9页附图2页 CN 115330625 A 2022.11.11 CN 115330625 A 1.一种小规模数据视觉语言预训练方法，其特征在于：对于图像端的预训练子任务，采用U‑Net网络，在编码缺失图像之后，在每组对应的下采样和上采样阶段之间与额外输入的文本特征进行通道注意力，利用文本信息来进行图像的补全，将编码特征和文本描述特征融合，输入到解码器中，解码成一个正常图像；对于文本端的预训练子任务，使用双线性注意力网络；其中，将文本特征记为X，图像特征为Y，注意力权重图w根据不同模态特征之间的亲和度计算得到，在注意力权重图的辅助下，进行X和Y之间的特征融合，最终输出缺失单词的预测结果。 2.根据权利要求1所述的小规模数据视觉语言预训练方法，其特征在于：在图像端的预训练子任务中，对文本使用文本选择器；在文本端对图像使用图像选择器；所述文本选择器和图像选择器采用循环神经网络，逐位的输出每个区域的选择结果；所述文本选择器的输入为缺失的图像和完整的文本，所述图像选择器的输入为缺失的文本和完整的图像。 3.根据权利要求1所述的小规模数据视觉语言预训练方法，其特征在于：对于图像端的预训练子任务，在编码阶段，从输入图像中提取多种尺度的视觉特征；并通过特征提取得到文本特征ft，之后输入到模型当中，与编码器输出相融合；解码阶段时，先通过通道注意力机制将编码后的图像特征和文本特征进行特征融合；开始时，特征图通过一个全局池化层转换成一个特征向量，和文本特征连接到一起后，输入到一个带有softmax层的简单前馈神经网络，从而生成一个注意力权重，最终被用来更新特征值，以得到最终融合的特征：下标i∈{1,2, …,cs}表示索引通道，表示一个标量； U‑Net网络的解码器带有多个反卷积层；每一个反卷积层的输入由同一阶段的编码层输出的编码特征和文本特征结合后得到的融合特征和前一反卷积层的输出连接而成，第一个反卷积层使用编码器最后一层的输出代替前一反卷积层的输出；最后一层输出的特征图 a，经过上采样和卷积之后作为最终的图像输出。 4.根据权利要求3所述的小规模数据视觉语言预训练方法，其特征在于：在训练过程中，将子任务总体看成一个像素级别的回归问题， Gif表示图像补全模型，将成对的缺失图像Imiss和文本特征ft作为输入，最终输出补全后的图像Inormal；原先的正常图像作为模型的补全目标，使用一个像素级的均方误差，如下所示： 5.根据权利要求1所述的小规模数据视觉语言预训练方法，其特征在于：对于文本端的预训练子任务，对于给定两个模态的特征X， Y，注意力权重根据不同模态特征之间的亲和度计算得来：其中U∈RN×d和V∈RM×d是映射矩阵，是一个向量， ph∈Rd，其中是注意力图索引，是逐元素乘积；在注意力权重图的辅助下，模型进行X和Y之间的特征融合，并在在模型中使用残差连权　利　要　求　书 1/2 页 2 CN 115330625 A 2接，在第n个残差块中，模型输出如下所示： P∈Rd×c是映射矩阵， X作为模型的初始输入F0， BANh是生成中间特征的函数，定义为: 其中U'∈RN×d,V'∈RM×d, 最后一层BAN网络输出的结果输入到一个多层感知机构建的分类器之后，最终输出缺失单词的预测结果。 6.根据权利要求5所述的小规模数据视觉语言预训练方法，其特征在于：将文本端的预训练子任务当作一个视觉问答问题， Gtf表示文本补全模型，以成对的缺失的文本Tmiss和图像特征fi作为模型输入，最终输出缺失的单词Ttar；模型预测目标为数据集的文本里被遮盖掉的部分；损失函数使用交叉熵损失，公式如下：权　利　要　求　书 2/2 页 3 CN 115330625 A 3

专利 小规模数据视觉语言预训练方法

专利小规模数据视觉语言预训练方法