专利一种基于语义引导鉴别器的半监督汉字图像生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210970759.7 (22)申请日 2022.08.13 (71)申请人广东知乐技术有限公司地址 510700 广东省广州市黄埔区光谱中路11号云升科学园2栋2单元1701房 (72)发明人吴斯　霍晓阳　李芃　 (74)专利代理机构广东科信启帆知识产权代理事务所(普通合伙) 44710 专利代理师黄俊杰 (51)Int.Cl. G06V 30/19(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06T 11/20(2006.01) (54)发明名称一种基于语义引导鉴别器的半监督汉字图像生成方法 (57)摘要本发明公开一种基于语义引导鉴别器的半监督汉字图像生成方法，在半监督场景下，从训练集中选取少量有标签的文字图像，其余作为无标签的文字数据，利用辅助分类器为无标签文字提供多重语义信息。分类器特征中隐含着语义信息，在鉴别器中引入文字图像的分类器特征。在鉴别器上采用双头结构：一个头接收类别标签，一个头采用特征融合模块融合鉴别器特征和分类器特征，使分类器特征作为鉴别真假的条件。最终生成器、鉴别器、分类器三者联合完成训练。本发明针对无标签真实文字图像，利用分类器预测的伪标签和分类器特征，提供丰富的语义信息，提升鉴别器在类别条件下区分真假样本的能力，使生成器生成更符合真实类条件分布且真实度和多样性高的文字。权利要求书2页说明书6页附图2页 CN 115273100 A 2022.11.01 CN 115273100 A 1.一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于，包括以下步骤： S1、准备一个数据集，其中只有一小部分训练数据有标注，将标注数据和其对应的标签集合记为L＝{(xl,yl)}，未标注数据集合记为： U＝{xu}； S2、准备一个由神经网络实现的生成器G:Pk×Y→Rh×w，生成器通过一个k维的随机向量 z和一个随机类别标签y来生成分辨率为h ×w的高保真文字图像xz，随机类别标签是从文字数据集的标注空间Y中随机采样得到的； S3、将S2中生成的文字和数据集中的有类别标签的文字作为标注数据，将数据集中的未标注文字作为未标注数据，利用这些数据训练一个由神经网络实现的分类器C，利用分类器C对未标注数据进行分类，预测未标注数据的标签，同时得到数据的分类器特征； S4、将S2中生成的数据作为虚假数据，数据集中的标注数据和未标注数据作为真实数据，训练一个由神经网络实现的用于区分真实数据和虚假数据的鉴别器D:Ph×w×Y×PM→ [0,1]，鉴别器以类别标签y和分类器特征fC(·)∈PM为条件，其中M表示特征图的维度； S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习，当三者的对抗学习达到平衡时，生成器便能够成符合真实类别条件分布且真实度高的文字。 2.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于：在步骤S1中，由于未标注数据没有类别标签，所以需要一个分类器C来为其预测其伪标签，用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。 3.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于：在步骤S2中，生成器需要以类别标签为条件，通过随机向量生成文字图像，生成的文字用下述公式来表示： xz＝G(z,yz) 其中yz∈Y代表一个随机的类别标签， z代表一个随机向量， z从一个易于采样的分布中提取，本文采用均值为0方差为1的标准高斯分布 4.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于：在步骤S3中，选用ResNet50作为分类器C的网络结构，为使得分类器C更加准确地预测未标注数据的类别，使用真实数据和生成数据来训练分类器神经网络，训练数据包括：标注数据‑标签对(xl,yl)，未标注数据xu，以及生成数据 ‑标签对(xz,yz)，相应的损失函数为：其中， C是分类器，代表期望， LCE(·,·)是交叉熵损失函数，其定义为： LCE(x,y)＝‑y log C(x) 。 5.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于：在步骤S4中，为了与生成器进行对抗以提高生成文字图像的真实度，需要训练一个由多层卷积神经网络组成的鉴别器，鉴别器的目的是在类别标签条件下尽可能区分出真实文字与生成的文字；为了充分利用S3中分类器特征包含的实例级语义信息，本发明中为鉴别器采用了一种双头结构D＝{F,T1,T2}，其中F是一个特征提取网络， T1中包含一个可学习的神经网络层用于学习类别标签的映射； T2中包含一个特征融合模块用于将分类器C和特征提取网络F学习的特征结合起来，同时由于T2中融合了图像的分类器特征，该操作将更加精细多样的语义信息编码到鉴别器中， T1和T2将共同作用以帮助G捕获精确的与每类文字相权　利　要　求　书 1/2 页 2 CN 115273100 A 2对应的类别语义信息；本发明中用x来表示一个有标签或无标签文字图像样本，并将其相应的标签定义为： T1以类别标签y为条件来区分真实数据和生成数据， T1根据生成文字的特征表示分布是否与相应类别的真实文字的特征分布一致来鉴别真假数据，其表达式为：其中Embed( ·)表示一个可学习类别标签映射的函数，是一个映射函数，表示最后一个线性表示层的权重， °表示矩阵运算操作，在上述公式中， T1(·,·)表示鉴别器网络将输入数据鉴别为真实数据的概率， T1上的损失函数用如下公式来表示：本发明中将分类器特征作为一种实例级别的先验知识将其添加到鉴别器中，在特征提取器特征fF和分类器特征fC之间实施基于通道注意力的特征融合，具体方法为：采用神经网络分别计算像素级权重Qloc和全局权重和Qglob，然后按照以下方式对两种类型的权重进行融合：其中表示广播相加运算，通过引入注意力权重Q， T2通过接收融合后的特征来获取实例级信息，具体方式如下：其中表示逐元素相乘，在这种条件下，特征提取器F需要去学习与分类器特征fC互补的特征； T2同样需要鉴别真实数据与生成数据，但它不需要类别标签，由于包含了分类器特征fC，能够加强鉴别器特征空间的类别分离度并促进类条件分布对齐， T2上的优化公式如下： 6.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法，其特征在于：在步骤S 5中，需要联合训练生成器、鉴别器和分类器，鉴别器与生成器进行对抗，分类器与生成器协同工作并引导生成器来捕获精确的类语义信息，因此对抗训练过程中生成器和鉴别器上的损失函数定义如下：其中加权因子α 和β 来平衡附加的T2与语义评估项的影响。权　利　要　求　书 2/2 页 3 CN 115273100 A 3

专利 一种基于语义引导鉴别器的半监督汉字图像生成方法

专利一种基于语义引导鉴别器的半监督汉字图像生成方法