专利一种基于语义信息指导的非实体类对象抠图方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211059450.9 (22)申请日 2022.08.31 (71)申请人无锡乐骐科技股份有限公司地址 214142 江苏省无锡市新吴区菱湖大道111号国家软件园天鹅座C座28楼 (72)发明人马勇　 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于语义信息指导的非实体类对象抠图方法 (57)摘要本发明公开了一种基于语义信息指导的非实体类对象抠图方法，该方法属于计算机视觉领域。所述方法通过两个阶段的多任务网络架构以从复杂的背景中准确的提取出前景文本，第一个阶段包含两个任务流，分别为语义分割任务流和抠图回归任务流，两个任务流分别对预处理过后的图像进行任务处理后输出，并将两个输出融合后输入至第二阶段进行联合细化处理，从而更加精准的完成前景文本的提取。本发明公开的目的是为了解决传统方法中针对不同尺度的图像缺少统一的方法来获得高质量抠图结果的问题。本方法能够对图像中不同前景透明度的文本或 logo进行有效提取，并获得高质量的抠图结果。权利要求书1页说明书4页附图1页 CN 115512102 A 2022.12.23 CN 115512102 A 1.一种基于语义信息指导的非实体类对象抠图方法，其特征在于：包括以下步骤： S1：获取包含了非实体类对象的待处理图像，将所述待处理图像进行预处理并进行裁剪，裁剪完成后的图像作为第一输入图像； S2：将所述第一输入图像输入至第一神经网络进行编码，所述第一神经网络包括一个共享编码器和两个解码器，分别为语义分割解码器和抠图回归解码器，所述语义分割解码器用于执行语义分割任务并输出语义mask图，所述抠图回归解码器用于执行抠图回归任务并输出alpha图； S3：将所述第一输入图像、所述语义mask图和所述alpha图进行拼接，生成第二输入图； S4：将所述第二输入图输入至第二神经网络，生成输出图，所述第二神经网络用于细化第二输入图。 2.根据权利要求1所述的一种基于语义信息指导的非实体类对象抠图方法，其特征在于：所述待处理图像通过数据合成器生成高度为 128、宽度为512的文本图像，所述第一输入图像由所述文本图像按照高度不变，宽度为2n(n为[1， 4]之间的任一整数)的尺寸裁剪而成。 3.根据权利要求2所述的一种基于语义信息指导的非实体类对象抠图方法，其特征在于：所述编码器基于ResNet50，移除其全连接层后将第一个卷积层和池化层的输出，以及每一个残差模块的输出作为底层特征。 4.根据权利要求3所述的一种基于语义信息指导的非实体类对象抠图方法，其特征在于：所述语义分割解码器内设置有语义增强模块，所述语义增强模块按分层处理的模式在每一层设置有若干个子模块，每个子模块用于执行卷机操作和上采样操作。 5.根据权利要求4所述的一种基于语义信息指导的非实体类对象抠图方法，其特征在于：所述抠图回归解码器内设置有注意力连接模块，所述注意力连接模块将抠图回归解码器的工作步骤包括：步骤1：与编码器中每一层具有相同尺度的特征进行连接；步骤2：通过注意力层获取加权后的特征图与高层特征以矩阵点乘的方式进行融合处理；步骤3：将步骤2中融合处理后的特征与底层特征进行相加。 6.根据权利要求3所述的一种基于语义信息指导的非实体类对象抠图方法，其特征在于：所述编码器中最后一个残差模块的输出尺寸与前一层的输出尺寸相同。 7.根据权利要求1所述的一种基于语义信息指导的非实体类对象抠图方法，其特征在于：所述第二神经网络自输入至输出依次包括有三个卷积层、三个残差模块、一个上采样卷积层和一个 sigmoid卷积层，其中除最后一个卷积层外，其余的卷积层均包含了归一化操作和ReLU激活函数。权　利　要　求　书 1/1 页 2 CN 115512102 A 2一种基于语义信息指导的非实体类对象抠图方法技术领域 [0001]本发明涉及计算机视觉领域，特别是涉及一种基于语义信息指导的非实体类对象抠图方法。背景技术 [0002]图像抠图是计算机视觉领域的一个重要技术问题，它旨在将我们感兴趣的前景物体从复杂的背景图像中精确的提取出来，其中的关键问题就是对前景物体的不透明度估计。该问题被定义为： Ii＝αiFi+(1‑αi)Bi，即从由前景图像F和背景图像B在任意像素i位置的线性组合图像I中求解不透明度α，也即alpha图，其取值范围在[0， 1]之间。 [0003]传统的抠图算法视其为颜色估计问题，通过利用经典的统计假设方法来解决，例如：基于相邻像素采样的方法，基于亲和力传播的方法等。而随着深度学习技术的兴起，传统方法抠图质量较低的弊端愈加明显，深度学习方法将图像抠图看作是一个回归问题，凭借卷积神经网络能够学习不同层级特征的优势，极大的提升了抠图任务的精度和速度。在实际解决这一问题时，人们主要以研究实体类对象抠图为主，所提出的抠图算法大部分侧重于人体、肖像、动物和其他一般物体，并取得了较好的抠图效果。然而，人们对图像中包含文本或图案等非实体类的对象还尚未充分探索。就研究主题而言，我们通过研究文本抠图，不仅可以扩展图像抠图方向上的学术探索边界，而且对于激发工业视觉中许多的应用开发也具有实际效用，例如艺术字生成，水印去除等。但是在技术实现方面，文本抠图比实体类物体抠图更为困难，主要原因有两点： 1、文本对象的结构特征复杂，它因字体，字形，字号等变化的差异性较大，如尺寸大小不一，分布不均匀，连通域离散化等； 2、在图像中文本这一前景对象可能具有不同程度的透明度，而它的透明度覆盖了整个字符区域(即前景区域)，这意味着估计文本的前景透明度将会产生更大的空间解。 [0004]现有的基于深度学习的抠图算法在解决实体类物体抠图上主要包括两类，一类是利用Trimap或背景图像作为先验知识与待抠取图像一起输入网络模型进行学习；另一类则无需先验输入，而是以待抠取图像作为单一输入直接进行学习。然而，对于文本抠图来说，前一类方法对尺度较小的文本前景构建先验辅助并不友好，后一类方法可以端到端直接抠图，但在处理文本对象时难以获得高质量的抠图结果。发明内容 [0005]为了解决上述传统方法中针对不同尺度的图像缺少统一的方法来获得高质量抠图结果的问题，本发明提出了一种通过两个阶段的多任务网络架构以从复杂的背景中准确的提取出前景文本的方法，第一个阶段包含两个任务流，分别为语义分割任务流和抠图回归任务流，两个任务流分别对预处理过后的图像进行任务处理后输出，并将两个输出融合后输入至第二阶段进行联合细化处理，从而更加精准的完成前景文本的提取。 [0006]鉴于以上情况，本发明提出了一种基于语义信息指导的非实体类对象抠图方法，包括以下步骤：说　明　书 1/4 页 3 CN 115512102 A 3

专利 一种基于语义信息指导的非实体类对象抠图方法

专利一种基于语义信息指导的非实体类对象抠图方法