全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211015424.6 (22)申请日 2022.08.24 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 郭若愚 杜宇宁 赖宝华 马艳军  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 杨静 (51)Int.Cl. G06T 11/60(2006.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本图像生成、 训练、 文本图像处理方法以 及电子设备 (57)摘要 本发明提供了一种文本图像生成、 训练、 文 本图像处理方法以及电子设备, 涉及人工智能技 术领域。 具体实现方案为: 根据样本文本图像集 的样本文本输出结果集和样本标签集, 将样本文 本图像集划分为至少一个样本文本图像子集; 根 据待裁剪样本文本图像集的样本文本输出结果 集, 确定待裁剪样本文本图像集的目标裁剪位置 集; 基于目标裁剪位置集对待裁剪样本文本图像 集进行裁剪, 得到至少一个裁剪样 本文本图像子 集; 根据至少一个裁剪样本文本图像子集和至少 一个样本文本图像子集, 得到目标样本文本图像 集。 能够有效保证目标裁剪位置的准确性, 有效 避免字符信息被破坏, 并且提高了目标样本文本 图像集中样本文本图像的图像背景复杂度和图 像多样性。 权利要求书5页 说明书18页 附图9页 CN 115082598 A 2022.09.20 CN 115082598 A 1.一种文本图像生成方法, 包括: 根据样本文本图像集的样本文本输出结果集和样本标签集, 将所述样本文本图像集划 分为至少一个样本文本图像子集, 其中, 所述至少一个样本文本图像子集包括第一样本文 本图像子集, 所述第一样本文本图像子集包括样本文本 输出结果正确的样本文本图像; 根据待裁剪样本文本图像集的样本文本输出结果集, 确定所述待裁剪样本文本图像集 的目标裁剪位置集, 其中, 所述待裁剪样本文本图像集是根据所述第一样本文本图像子集 确定的; 基于所述目标裁剪位置集对所述待裁剪样本文本图像集进行裁剪, 得到至少一个裁剪 样本文本图像子集; 以及 根据所述至少一个裁剪样本文本图像子集和所述至少一个样本文本图像子集, 得到目 标样本文本图像集。 2.根据权利要求1所述的方法, 其中, 所述根据样本文本图像集的样本文本输出结果集 和样本标签集, 将所述样本文本图像集划分为至少一个样本文本图像子集, 包括: 将所述样本文本图像集的样本文本输出结果集和样本标签集进行比较, 得到比较结 果; 以及 根据所述比较结果, 将所述样本文本图像集划分为所述至少一个样本文本图像子集。 3.根据权利要求2所述的方法, 其中, 所述样本文本 图像集包括多个样本文本 图像, 所 述至少一个样本文本图像子集还 包括第二样本文本图像子集; 其中, 所述根据所述比较结果, 将所述样本文本 图像集划分为所述至少一个样本文本 图像子集, 包括: 针对所述多个样本文本图像中的样本文本图像, 在确定所述样本文本图像的样本文本输出结果和样本标签之间的关系满足预定匹配 条件的情况下, 将所述样本文本图像确定为所述第一样本文本图像子集中的样本文本图 像; 以及 在确定所述样本文本图像的样本文本输出结果和样本标签之间的关系不满足所述预 定匹配条件的情况下, 将所述样本文本图像确定为所述第二样本文本图像子集中的样本文 本图像。 4.根据权利要求1~3中任一项所述的方法, 其中, 所述待裁剪样本文本图像集包括多个 待裁剪样本文本图像; 其中, 所述根据待裁剪样本文本 图像集的样本文本输出结果集, 确定所述待裁剪样本 文本图像集的目标裁 剪位置集, 包括: 针对所述待裁 剪样本文本图像集中的待裁 剪样本文本图像, 根据所述待裁剪样本文本图像的样本文本输出结果, 从多个候选裁剪位置 中确定至少 一个所述目标裁 剪位置。 5.根据权利要求4所述的方法, 其中, 所述样本文本输出结果包括以下至少之一: 样本 文本识别输出 结果和样本文本语义输出 结果。 6.根据权利要求5所述的方法, 其中, 所述样本文本图像集包括多个样本文本图像; 其中, 所述样本文本识别输出结果是对所述样本文本图像的全局样本特征序列进行序 列解码得到的, 所述全局样本特征序列是对所述样本文本图像的第一局部样本特征图进 行权 利 要 求 书 1/5 页 2 CN 115082598 A 2全局特征提取得到的, 所述第一局部样本特征图是对所述样本文本图像进 行第一局部特征 提取得到的; 其中, 所述样本文本语义输出结果是对所述样本文本图像的第 二局部样本特征图进行 语义理解得到的, 所述第二局部样本特征图是对所述样本文本图像进 行第二局部特征提取 得到的。 7.根据权利要求5所述的方法, 其中, 在所述样本文本输出结果包括所述样本文本识别 结果和所述样本文本语义输出结果的情况下, 所述根据所述待裁剪样本文本图像的样本文 本输出结果, 从多个候选 裁剪位置中确定 至少一个所述目标裁 剪位置, 包括: 根据所述待裁剪样本文本图像的样本文本识别输出结果, 确定所述多个候选裁剪位 置; 以及 根据所述待裁剪样本文本图像的样本文本语义输出结果, 从所述多个候选裁剪位置中 确定至少一个所述目标裁 剪位置。 8.根据权利要求1~3中任一项所述的方法, 其中, 所述基于所述目标裁剪位置集对所述 待裁剪样本文本图像集进行裁 剪, 得到至少一个裁 剪样本文本图像子集, 包括: 基于所述目标裁剪位置集对所述待裁剪样本文本图像集进行裁剪, 得到第 一裁剪样本 文本图像子集和第二裁 剪样本文本图像子集。 9.根据权利要求1~3中任一项所述的方法, 其中, 所述根据 所述至少一个裁剪样本文本 图像子集和所述至少一个样本文本图像子集, 得到目标样本文本图像集, 包括: 根据所述至少一个裁 剪样本文本图像子集, 得到第三样本文本图像子集; 以及 根据所述至少一个样本文本图像子集和所述第 三样本文本图像子集, 得到所述目标样 本文本图像集。 10.根据权利要求9所述的方法, 其中, 所述根据所述至少一个裁剪样本文本图像子集, 得到第三样本文本图像子集, 包括: 基于预定组合策略, 将所述至少一个裁剪样本文本图像子集中的裁剪样本文本图像进 行组合, 得到所述第三样本文本图像子集。 11.根据权利要求1~3中任一项所述的方法, 其中, 所述第一样本文本 图像集包括多个 第一样本文本图像; 其中, 所述待裁 剪样本文本图像集是通过以下 方式确定的: 针对所述多个第一样本文本图像中的第一样本文本图像, 在确定所述第 一样本文本图像的预定概率值小于或等于预定概率阈值的情况下, 将所 述第一样本文本图像确定为所述待裁 剪样本文本图像集中的待裁 剪样本文本图像。 12.根据权利要求1~3中任一项所述的方法, 还 包括: 对原始样本文本图像集进行 数据增强处 理, 得到中间样本文本图像集; 以及 根据所述原始样本文本图像集和所述中间样本文本图像集, 得到所述样本文本图像 集。 13.根据权利要求1~3中任一项所述的方法, 其中, 所述样本文本 图像集是文本视觉任 务的文本图像集。 14.一种深度学习模型的训练方法, 包括: 获取目标样本文本图像集; 以及权 利 要 求 书 2/5 页 3 CN 115082598 A 3

.PDF文档 专利 文本图像生成、训练、文本图像处理方法以及电子设备

文档预览
中文文档 33 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本图像生成、训练、文本图像处理方法以及电子设备 第 1 页 专利 文本图像生成、训练、文本图像处理方法以及电子设备 第 2 页 专利 文本图像生成、训练、文本图像处理方法以及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:15:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。