专利基于特征提取和RFB上下文信息优化的图像语义分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210908356.X (22)申请日 2022.07.29 (71)申请人南昌航空大学地址 330063 江西省南昌市丰和南大道696 号 (72)发明人张聪炫　陈立志　卢锋　葛利跃　汪洋　陈震　李楠　 (74)专利代理机构南昌市平凡知识产权代理事务所 36122 专利代理师张文杰 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于特征提取和RFB上下文信息优化的图像语义分割方法 (57)摘要一种基于特征提取和RFB上下文信息优化的图像语义分割方法：首先输入图像到Swin Transformer特征提取网络，分别输出包含深层语义信息的特征图和包含浅层语义信息的特征图；然后将包含深层语义信息的特征图和包含浅层语义信息的特征图分别输入到不同深度的RFB 模块进行上下文信息优化，得到两个含有更丰富上下文信息的特征图；对RFB模块优化后的两个特征图进行拼接融合，再将融合后的特征图进行双线性插值上采样处理，随后将结果输入到解码网络，得到最终图像语义分割结果。本发明利用 Swin Transformer模块不仅能提取图像的深层和浅层语义特征，同时结合RFB上下文信息优化模块，提高语义分割精度。权利要求书1页说明书4页附图4页 CN 115205532 A 2022.10.18 CN 115205532 A 1.一种基于特征提取和RFB上下文信息优化的图像语义分割方法，其特征在于，包括以下步骤：步骤1、输入大小为H ×W的RGB图像；步骤2、将图像输入到Swin Transformer特征提取模块，分别输出包含深层语义信息的特征图和包含浅层语义信息的特征图；步骤3、将包含深层语义信息的特征图和包含浅层语义信息的特征图分别输入到不同深度的RFB模块进行上下文信息优化，得到两个含有更丰富上下文信息的特征图；步骤4、对RFB模块优化后的两个特征图进行拼接融合，随后将结果输入到解码网络；步骤5、将融合后的特征图进行双线性插值上采样，通过交叉熵损失约束迭代优化后输出最终的分割结果。 2.如权利要求1所述的方法，其特征在于：所述步骤2首先对输入图像分别进行窗口切分和块切分操作，将每个图像块会被当作一个待处理对象，紧接着将图像输入一个线性特征长度编码层，将处理好的特征图传入Swin Transformer 模块，并对每个窗口做自注意力计算。 3.如权利要求2所述的方法，其特征在于：所述步骤3经Swin Transformer模块提取得到特征图，将最终得到的特征图和Swin Transformer中1/4分辨率特征图分别送入不同的 RFB上下文信息模块， 1/4分辨率特征图采取更深的RFB模块，最终得到的特征图采取较浅的 RFB模块。权　利　要　求　书 1/1 页 2 CN 115205532 A 2基于特征提取和RF B上下文信息优化的图像语义分割方法技术领域 [0001]本发明涉及一种基于特征提取和RFB上下文信息优化的图像语义分割方法。背景技术 [0002]图像语义分割技术是计算机视觉领域热点研究之一，是图像推理从粗粒度到细粒度过程中一个自然的步骤，当类似目标检测类的图像级任务所获得的推理结果达不到实际要求时，那么语义分割就是能提供更精细结果的选择。语义分割本质是像素级别的图像分类，即对每一个像素点进行分类判断，从而提供更加丰富的图像信息。语义分割技术被广泛用于自动驾驶、医疗影像分析、遥感影像分析、视频AI换脸等众多领域。 [0003]目前，现有的语义分割方法基本是基于深度学习方法展开研究的，在具体实现精度上也达到了较高的精度水平。但是像素级的分类意味着往往需要使用resnet101级别等深层网络才能提取更好特征，现有CNN网络受限于感受野往往全局特征提取能力不强；其次分割领域现有方法对于感受野问题仍然有待进一步改善。 [0004]针对现有问题，引入基于Swin Transformer特征提取和RFB上下文信息图像语义分割方法，旨在改善网络特征提取能力，同时Swin transformer和RFB相互耦合改善上下文信息，最终提升分割精度，提高系统鲁棒性。发明内容 [0005]基于此，本发明主要是解决现有语义分割技术特征提取不足和上下文信息不完善的问题，提出一种基于特征提取和RFB上下文信息优化的图像语义分割方法，利用Swin Transformer改善特征提取问题，利用Swin Transformer和RFB相互耦合改善上下文信息问题，最终提升图像语义分割的精度。 [0006]本发明提供一种基于特征提取和RFB上下文信息优化的图像语义分割方法，包括以下步骤： [0007]步骤1、输入大小为H ×W的RGB图像； [0008]步骤2、将图像输入到Swin Transformer特征提取模块，分别输出包含深层语义信息的特征图和包含浅层语义信息的特征图； [0009]步骤3、将包含深层语义信息的特征图和包含浅层语义信息的特征图分别输入到不同深度的RFB模块进行上下文信息优化，得到两个含有更丰富上下文信息的特征图； [0010]步骤4、对RFB模块优化后的两个特征图进行拼接融合，随后将结果输入到解码网络； [0011]步骤5、将融合后的特征图进行双线性插值上采样，通过交叉熵损失约束迭代优化后输出最终的分割结果。 [0012]进一步的，所述步骤2首先对输入图像分别进行窗口切分和块切分操作，将每个图像块会被当作一个待处理对象，紧接着将图像输入一个线性特征长度编码层，将处理好的特征图传入Sw in Transformer模块，并对每个窗口做自注意力计算。说　明　书 1/4 页 3 CN 115205532 A 3

专利 基于特征提取和RFB上下文信息优化的图像语义分割方法

专利基于特征提取和RFB上下文信息优化的图像语义分割方法