全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211059450.9 (22)申请日 2022.08.31 (71)申请人 无锡乐骐科技股份有限公司 地址 214142 江苏省无锡市新吴区菱湖大 道111号国家软件园天鹅座C座28楼 (72)发明人 马勇  (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于语义信息指导的非实体类对象抠 图方法 (57)摘要 本发明公开了一种基于语义信息指导的非 实体类对象抠图方法, 该方法属于计算机视觉领 域。 所述方法通过两个阶段的多任务网络架构以 从复杂的背景中准确的提取出前景文本, 第一个 阶段包含两个任务流, 分别为语义分割任务流和 抠图回归任务流, 两个任务流分别对 预处理过后 的图像进行任务处理后输出, 并将 两个输出融合 后输入至第二阶段进行联合细化处理, 从而更加 精准的完成前景文本的提取。 本发 明公开的目的 是为了解决传统方法中针对不同尺度的图像缺 少统一的方法来获得高质量抠图结果的问题。 本 方法能够对图像中不同前景透明度的文本或 logo进行有效提取, 并获得高质量的抠图结果。 权利要求书1页 说明书4页 附图1页 CN 115512102 A 2022.12.23 CN 115512102 A 1.一种基于语义信息指导的非 实体类对象抠图方法, 其特 征在于: 包括以下步骤: S1: 获取包含了非实体类对象的待处理图像, 将所述待处理图像进行预处理并进行裁 剪, 裁剪完成后的图像作为第一输入图像; S2: 将所述第一输入图像输入至第一神经网络进行编码, 所述第一神经网络包括一个 共享编码器和两个解码器, 分别为语义分割解码器和 抠图回归解码器, 所述语义分割解码 器用于执行语义分割任务并输出语义mask图, 所述抠图回归解码 器用于执行抠图回归任务 并输出alpha图; S3: 将所述第一输入图像、 所述语义mask图和所述alpha图进行拼接, 生成第二输入图; S4: 将所述第 二输入图输入至第二神经网络, 生成输出图, 所述第 二神经网络用于细化 第二输入图。 2.根据权利要求1所述的一种基于语义信息指导的非实体类对象抠图方法, 其特征在 于: 所述待处理图像通过数据合成器生 成高度为 128、 宽度为512的文本图像, 所述第一输入 图像由所述文本图像按照高度不变, 宽度为2n(n为[1, 4]之间的任一整数)的尺寸裁剪而 成。 3.根据权利要求2所述的一种基于语义信息指导的非实体类对象抠图方法, 其特征在 于: 所述编码器基于ResNet50, 移除其全连接层后将第一个卷积层和池化层的输出, 以及每 一个残差模块的输出作为底层特 征。 4.根据权利要求3所述的一种基于语义信息指导的非实体类对象抠图方法, 其特征在 于: 所述语义分割解码器内设置有语义增强模块, 所述语义增强模块按分层处理的模式在 每一层设置有 若干个子模块, 每 个子模块用于执 行卷机操作和上采样 操作。 5.根据权利要求4所述的一种基于语义信息指导的非实体类对象抠图方法, 其特征在 于: 所述抠图回归解码器内设置有注意力连接模块, 所述注意力连接模块将抠图回归解码 器的工作步骤 包括: 步骤1: 与编码器中每一层具有相同尺度的特 征进行连接; 步骤2: 通过注意力层获取加权后的特征图与高层特征以矩阵点乘的方式进行融合处 理; 步骤3: 将步骤2中 融合处理后的特 征与底层特 征进行相加。 6.根据权利要求3所述的一种基于语义信息指导的非实体类对象抠图方法, 其特征在 于: 所述编码器中最后一个残差模块的输出尺寸与前一层的输出尺寸相同。 7.根据权利要求1所述的一种基于语义信息指导的非实体类对象抠图方法, 其特征在 于: 所述第二神经网络自输入至输出依次包括有三个卷积层、 三个残差模块、 一个上采样卷 积层和一个 sigmoid卷积层, 其中除最后一个卷积层外, 其余的卷积层均包含了归一化操作 和ReLU激活函数。权 利 要 求 书 1/1 页 2 CN 115512102 A 2一种基于语 义信息指导 的非实体类对象抠图方 法 技术领域 [0001]本发明涉及计算机视觉领域, 特别是涉及 一种基于语义信息指导的非实体类对象 抠图方法。 背景技术 [0002]图像抠图是计算机视觉领域的一个重要技术问题, 它旨在将我们感兴趣的前景物 体从复杂的背景图像中精确的提取出来, 其中的关键问题就是对前景物体的不透明度估 计。 该问题被定 义为: Ii=αiFi+(1‑αi)Bi, 即从由前景图像F和背景图像B在任意像素i位置的 线性组合图像I中求 解不透明度α, 也即alpha图, 其取值范围在[0, 1]之间。 [0003]传统的抠图算法视其为颜色估计问题, 通过利用经典的统计假设方法来解决, 例 如: 基于相邻像素采样的方法, 基于亲和力传播的方法等。 而随着深度学习技术的兴起, 传 统方法抠图质量较低的弊端愈加明显, 深度学习 方法将图像抠图看作是一个回归问题, 凭 借卷积神经网络能够学习不同层级特征 的优势, 极大 的提升了抠图任务的精度和速度。 在 实际解决这一问题时, 人们主要以研究实体类对 象抠图为主, 所提出 的抠图算法大部分侧 重于人体、 肖像、 动物和其他一般物体, 并取得了较好的抠图效果。 然而, 人们对图像中包含 文本或图案等 非实体类的对象还尚未充分探索。 就研究主题而言, 我们通过研究文本抠图, 不仅可以扩展图像抠图方向上的学术探索边界, 而且对于激发工业视觉中许多的应用开 发 也具有实际效用, 例如艺术字生成, 水印去除等。 但是在技术实现方面, 文本抠图比实体类 物体抠图更为困难, 主要原因有两点: 1、 文本对象 的结构特征复杂, 它因字体, 字形, 字号等 变化的差异性较大, 如尺寸大小不一, 分布不均匀, 连通域离散化等; 2、 在图像中文本这一 前景对象可能具有不同程度的透明度, 而它的透明度覆盖了整个字符区域(即前景区域), 这意味着估计文本的前 景透明度将会产生更 大的空间解。 [0004]现有的基于深度学习的抠图算法在解决实体类物体抠图上主要包括两类, 一类是 利用Trimap或背 景图像作为先验知识与待抠取图像一起输入网络模型进 行学习; 另一类则 无需先验输入, 而是以待抠取图像作为单一输入直接进行学习。 然而, 对于文本抠图来说, 前一类方法对尺度较小的文本前景构建先验辅助并不友好, 后一类方法可以端到端直接抠 图, 但在处 理文本对象时难以获得高质量的抠图结果。 发明内容 [0005]为了解决上述传统方法中针对不同尺度的图像缺少统一的方法来获得高质量抠 图结果的问题, 本发明提出了一种通过两个阶段的多任务网络架构以从复杂的背 景中准确 的提取出前景文本的方法, 第一个阶段包含两个任务流, 分别为语义分割任务流和 抠图回 归任务流, 两个任务流分别对预处理过后的图像进行任务处理后输出, 并将两个输出融合 后输入至第二阶段进行 联合细化处 理, 从而更加精准的完成前 景文本的提取。 [0006]鉴于以上情况, 本发明提出了一种基于语义信息指导的非实体类对象抠图方法, 包括以下步骤:说 明 书 1/4 页 3 CN 115512102 A 3

.PDF文档 专利 一种基于语义信息指导的非实体类对象抠图方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语义信息指导的非实体类对象抠图方法 第 1 页 专利 一种基于语义信息指导的非实体类对象抠图方法 第 2 页 专利 一种基于语义信息指导的非实体类对象抠图方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:11:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。