(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210970759.7
(22)申请日 2022.08.13
(71)申请人 广东知乐 技术有限公司
地址 510700 广东省广州市黄埔区光谱中
路11号云升科 学园2栋2单 元1701房
(72)发明人 吴斯 霍晓阳 李芃
(74)专利代理 机构 广东科信启帆知识产权代理
事务所(普通 合伙) 44710
专利代理师 黄俊杰
(51)Int.Cl.
G06V 30/19(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06T 11/20(2006.01)
(54)发明名称
一种基于语义引导鉴别器的半监督汉字图
像生成方法
(57)摘要
本发明公开一种基于语义引导鉴别器的半
监督汉字图像生成方法, 在半监督场景下, 从训
练集中选 取少量有标签的文字图像, 其余作为无
标签的文字数据, 利用辅助分类器为无标签文字
提供多重语义信息。 分类器特征中隐含着语义信
息, 在鉴别器中引入文字图像的分类器特征。 在
鉴别器上采用双头结构: 一个头接收类别标签,
一个头采用特征融合模块融合鉴别器特征和分
类器特征, 使分类器特征作为鉴别真假的条件。
最终生成器、 鉴别器、 分类器三者联合完成训练。
本发明针对 无标签真实文字图像, 利用分类器预
测的伪标签和分类器特征, 提供丰富的语义信
息, 提升鉴别器在类别条件下区分真假样本的能
力, 使生成器生成更符合真实类条件分布且真实
度和多样性高的文字 。
权利要求书2页 说明书6页 附图2页
CN 115273100 A
2022.11.01
CN 115273100 A
1.一种基于语义引导 鉴别器的半监 督汉字图像生成方法, 其特 征在于, 包括以下步骤:
S1、 准备一个数据集, 其中只有一小部分训练数据有标注, 将标注数据和其对应的标签
集合记为L={(xl,yl)}, 未标注数据集 合记为: U={xu};
S2、 准备一个由神经网络实现的生成器G:Pk×Y→Rh×w, 生成器通过一个k维的随机向量
z和一个随机类别标签y来生成分辨率为h ×w的高保真文字图像xz, 随机类别标签是从文字
数据集的标注空间Y中随机采样得到的;
S3、 将S2中生成的文字和数据集中的有类别标签的文字作为标注数据, 将数据集中的
未标注文字作为未标注数据, 利用这些数据训练一个由神经网络实现的分类器C, 利用分类
器C对未标注数据进行分类, 预测未 标注数据的标签, 同时得到数据的分类 器特征;
S4、 将S2中生成的数据作为虚假数据, 数据集中的标注数据和未标注数据作为真实数
据, 训练一个由神经网络实现的用于区分真实数据和虚假数据的鉴别器D:Ph×w×Y×PM→
[0,1], 鉴别器以类别标签y和分类 器特征fC(·)∈PM为条件, 其中M表示特 征图的维度;
S5、 通过生成器G、 分类器C和鉴别器D三者之间的对抗来约束神经网络的学习, 当三者
的对抗学习达 到平衡时, 生成器便能够成符合真实类别条件分布且真实度高的文字 。
2.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法, 其特
征在于: 在步骤S1中, 由于未标注数据没有类别标签, 所以需要一个分类器C来为其预测其
伪标签, 用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。
3.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法, 其特
征在于: 在步骤S2中, 生成器需要以类别标签为条件, 通过 随机向量生成文字图像, 生成的
文字用下述公式来表示:
xz=G(z,yz)
其中yz∈Y代表一个随机的类别 标签, z代表一个随机向量, z从一个易于采样的分布 中
提取, 本文采用均值 为0方差为1的标准高斯分布
4.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法, 其特
征在于: 在步骤S3中, 选用ResNet50作为分类器C的网络结构, 为使 得分类器C更加准确地预
测未标注数据的类别, 使用真实数据和生成数据来训练分类器神经网络, 训练数据包括: 标
注数据‑标签对(xl,yl), 未标注数据xu, 以及生成数据 ‑标签对(xz,yz), 相应的损失函数为:
其中, C是分类 器,
代表期望, LCE(·,·)是交叉熵损失函数, 其定义 为:
LCE(x,y)=‑y log C(x) 。
5.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法, 其特
征在于: 在步骤S4中, 为了与生成器进 行对抗以提高生成文字图像的真实度, 需要训练一个
由多层卷积神经网络组成的鉴别器, 鉴别器的目的是在类别标签条件下尽可能区分出真实
文字与生成的文字; 为了充分利用S3中分类器特征包含的实例级语义信息, 本发明中为鉴
别器采用了一种双头结构D={F,T1,T2}, 其中F是一个特征提取网络, T1中包含一个可学习
的神经网络层用于学习类别标签 的映射; T2中包含一个特征融合模块用于将分类器C和特
征提取网络F学习的特征结合起来, 同时由于T2中融合了图像的分类器特征, 该操作将更加
精细多样的语 义信息编码到 鉴别器中, T1和T2将共同作用以帮助G捕获精确的与每类文 字相权 利 要 求 书 1/2 页
2
CN 115273100 A
2对应的类别语义信息; 本发明中用x来表示一个有标签或无标签文字图像样 本, 并将其相应
的标签定义 为:
T1以类别标签y为条件来区分真实数据和生成数据, T1根据生成文字的特征表示分布是
否与相应 类别的真实文字的特 征分布一 致来鉴别真假数据, 其表达式为:
其中Embed( ·)表示一个可 学习类别标签映射的函数,
是一个映射函数,
表示最后
一个线性表示层的权重, °表示矩阵运算操作, 在上述公式中, T1(·,·)表示鉴别器网络将
输入数据鉴别为真实数据的概 率, T1上的损失函数用如下公式来表示:
本发明中将分类器特征作为一种实例级别的先验知识将其添加到鉴别器中, 在特征提
取器特征fF和分类器特征fC之间实施基于 通道注意力的特征融合, 具体方 法为: 采用神经网
络分别计算像素级权重Qloc和全局权重和Qglob, 然后按照以下方式对两种类型的权重进行
融合:
其中
表示广播相加 运算, 通过引入注意力权重Q, T2通过接收融合后的特征来获取实
例级信息, 具体方式如下:
其中
表示逐元素相乘, 在这种条件下, 特征提取器F需要去学习与分类器特征fC互补
的特征; T2同样需要鉴别真实数据与生成数据, 但它不需要类别标签, 由于包含了分类器特
征fC,
能够加强鉴别器特征空间的类别分离度并促进类条件分布对齐, T2上的优化公式如
下:
6.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法, 其特
征在于: 在步骤S 5中, 需要联合训练生 成器、 鉴别器和分类器, 鉴别器与生成器进 行对抗, 分
类器与生成器协同工作并引导生成器来捕获精确的类语义信息, 因此对抗训练过程中生成
器和鉴别器上的损失函数定义如下:
其中加权因子α 和β 来平衡附加的T2与语义评估项的影响。权 利 要 求 书 2/2 页
3
CN 115273100 A
3
专利 一种基于语义引导鉴别器的半监督汉字图像生成方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:11:38上传分享