专利文本图像生成、训练、文本图像处理方法以及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211015424.6 (22)申请日 2022.08.24 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人郭若愚　杜宇宁　赖宝华　马艳军　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师杨静 (51)Int.Cl. G06T 11/60(2006.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本图像生成、训练、文本图像处理方法以及电子设备 (57)摘要本发明提供了一种文本图像生成、训练、文本图像处理方法以及电子设备，涉及人工智能技术领域。具体实现方案为：根据样本文本图像集的样本文本输出结果集和样本标签集，将样本文本图像集划分为至少一个样本文本图像子集；根据待裁剪样本文本图像集的样本文本输出结果集，确定待裁剪样本文本图像集的目标裁剪位置集；基于目标裁剪位置集对待裁剪样本文本图像集进行裁剪，得到至少一个裁剪样本文本图像子集；根据至少一个裁剪样本文本图像子集和至少一个样本文本图像子集，得到目标样本文本图像集。能够有效保证目标裁剪位置的准确性，有效避免字符信息被破坏，并且提高了目标样本文本图像集中样本文本图像的图像背景复杂度和图像多样性。权利要求书5页说明书18页附图9页 CN 115082598 A 2022.09.20 CN 115082598 A 1.一种文本图像生成方法，包括：根据样本文本图像集的样本文本输出结果集和样本标签集，将所述样本文本图像集划分为至少一个样本文本图像子集，其中，所述至少一个样本文本图像子集包括第一样本文本图像子集，所述第一样本文本图像子集包括样本文本输出结果正确的样本文本图像；根据待裁剪样本文本图像集的样本文本输出结果集，确定所述待裁剪样本文本图像集的目标裁剪位置集，其中，所述待裁剪样本文本图像集是根据所述第一样本文本图像子集确定的；基于所述目标裁剪位置集对所述待裁剪样本文本图像集进行裁剪，得到至少一个裁剪样本文本图像子集；以及根据所述至少一个裁剪样本文本图像子集和所述至少一个样本文本图像子集，得到目标样本文本图像集。 2.根据权利要求1所述的方法，其中，所述根据样本文本图像集的样本文本输出结果集和样本标签集，将所述样本文本图像集划分为至少一个样本文本图像子集，包括：将所述样本文本图像集的样本文本输出结果集和样本标签集进行比较，得到比较结果；以及根据所述比较结果，将所述样本文本图像集划分为所述至少一个样本文本图像子集。 3.根据权利要求2所述的方法，其中，所述样本文本图像集包括多个样本文本图像，所述至少一个样本文本图像子集还包括第二样本文本图像子集；其中，所述根据所述比较结果，将所述样本文本图像集划分为所述至少一个样本文本图像子集，包括：针对所述多个样本文本图像中的样本文本图像，在确定所述样本文本图像的样本文本输出结果和样本标签之间的关系满足预定匹配条件的情况下，将所述样本文本图像确定为所述第一样本文本图像子集中的样本文本图像；以及在确定所述样本文本图像的样本文本输出结果和样本标签之间的关系不满足所述预定匹配条件的情况下，将所述样本文本图像确定为所述第二样本文本图像子集中的样本文本图像。 4.根据权利要求1~3中任一项所述的方法，其中，所述待裁剪样本文本图像集包括多个待裁剪样本文本图像；其中，所述根据待裁剪样本文本图像集的样本文本输出结果集，确定所述待裁剪样本文本图像集的目标裁剪位置集，包括：针对所述待裁剪样本文本图像集中的待裁剪样本文本图像，根据所述待裁剪样本文本图像的样本文本输出结果，从多个候选裁剪位置中确定至少一个所述目标裁剪位置。 5.根据权利要求4所述的方法，其中，所述样本文本输出结果包括以下至少之一：样本文本识别输出结果和样本文本语义输出结果。 6.根据权利要求5所述的方法，其中，所述样本文本图像集包括多个样本文本图像；其中，所述样本文本识别输出结果是对所述样本文本图像的全局样本特征序列进行序列解码得到的，所述全局样本特征序列是对所述样本文本图像的第一局部样本特征图进行权　利　要　求　书 1/5 页 2 CN 115082598 A 2全局特征提取得到的，所述第一局部样本特征图是对所述样本文本图像进行第一局部特征提取得到的；其中，所述样本文本语义输出结果是对所述样本文本图像的第二局部样本特征图进行语义理解得到的，所述第二局部样本特征图是对所述样本文本图像进行第二局部特征提取得到的。 7.根据权利要求5所述的方法，其中，在所述样本文本输出结果包括所述样本文本识别结果和所述样本文本语义输出结果的情况下，所述根据所述待裁剪样本文本图像的样本文本输出结果，从多个候选裁剪位置中确定至少一个所述目标裁剪位置，包括：根据所述待裁剪样本文本图像的样本文本识别输出结果，确定所述多个候选裁剪位置；以及根据所述待裁剪样本文本图像的样本文本语义输出结果，从所述多个候选裁剪位置中确定至少一个所述目标裁剪位置。 8.根据权利要求1~3中任一项所述的方法，其中，所述基于所述目标裁剪位置集对所述待裁剪样本文本图像集进行裁剪，得到至少一个裁剪样本文本图像子集，包括：基于所述目标裁剪位置集对所述待裁剪样本文本图像集进行裁剪，得到第一裁剪样本文本图像子集和第二裁剪样本文本图像子集。 9.根据权利要求1~3中任一项所述的方法，其中，所述根据所述至少一个裁剪样本文本图像子集和所述至少一个样本文本图像子集，得到目标样本文本图像集，包括：根据所述至少一个裁剪样本文本图像子集，得到第三样本文本图像子集；以及根据所述至少一个样本文本图像子集和所述第三样本文本图像子集，得到所述目标样本文本图像集。 10.根据权利要求9所述的方法，其中，所述根据所述至少一个裁剪样本文本图像子集，得到第三样本文本图像子集，包括：基于预定组合策略，将所述至少一个裁剪样本文本图像子集中的裁剪样本文本图像进行组合，得到所述第三样本文本图像子集。 11.根据权利要求1~3中任一项所述的方法，其中，所述第一样本文本图像集包括多个第一样本文本图像；其中，所述待裁剪样本文本图像集是通过以下方式确定的：针对所述多个第一样本文本图像中的第一样本文本图像，在确定所述第一样本文本图像的预定概率值小于或等于预定概率阈值的情况下，将所述第一样本文本图像确定为所述待裁剪样本文本图像集中的待裁剪样本文本图像。 12.根据权利要求1~3中任一项所述的方法，还包括：对原始样本文本图像集进行数据增强处理，得到中间样本文本图像集；以及根据所述原始样本文本图像集和所述中间样本文本图像集，得到所述样本文本图像集。 13.根据权利要求1~3中任一项所述的方法，其中，所述样本文本图像集是文本视觉任务的文本图像集。 14.一种深度学习模型的训练方法，包括：获取目标样本文本图像集；以及权　利　要　求　书 2/5 页 3 CN 115082598 A 3

专利 文本图像生成、训练、文本图像处理方法以及电子设备

专利文本图像生成、训练、文本图像处理方法以及电子设备