专利基于交错空洞卷积UNet的图像语义分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211106328.2 (22)申请日 2022.09.11 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人王少帆　刘玉坤　孙艳丰　尹宝才　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 专利代理师刘萍 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于交错空洞卷积UNet的图像语义分割方法 (57)摘要基于交错空洞卷积UNet的图像语义分割方法适用于计算机视觉领域。该方法使用了交错空洞卷积模块以及边缘保持模块。交错空洞卷积模块通过交错式的融合方式，即避免了将表达不同物体的特征进行相加，又有效的融合分布在不同通道的特征。而边缘保持模块通过将不同卷积核的卷积层的输出做差得到边缘特征，经整合后加和到输出特征上。该模块具有锐化特征边缘信息的能力。从而增强模型对于边缘的预测能力。该方法的提出，主要解决的技术问题包括多感受野的特征融合与图像语义分割的细节优化，从而获得更好的语义分割性能。权利要求书2页说明书6页附图5页 CN 115482379 A 2022.12.16 CN 115482379 A 1.基于交错空洞卷积UNet的图像语义分割方法，其特征在于：步骤一：建立基于交错空洞卷积的深度网络模型 1)训练数据输入将RGB数据作为输入； 2)设计交错空洞卷积模块输入F∈RC*H*W，首先经过1x1的卷积，之后将结果经过2条支路， 2 条支路分别为空洞率为 1和2的空洞卷积，卷积核的大小为3x3，以此来得到感受野不同的相似特征F1∈RC1*H*W以及 F2∈RC2*H*W；其中C1和C2均为0.5倍的C；并将这些特征按照通道顺序进行交错排列来得到组合特征，并经过1x1卷积来融合特征，丰富感受野,得到模型的输出 F’∈RC*H*W；模块每条支路输出的通道数等于输入模块的特征的通道数除以支路数，保证了模块输出的特征与输入的特征在维度上一致； 3).设计边缘保持模块提出了一种边缘保持模块；对于模块的输入特征Z∈RC*H*W分别经过一个 1x1卷积和一个 3x3卷积得到特征Z1∈RC*H*W和Z2∈RC*H*W，并用Z1减去Z2得到丰富的细节信息Z3∈RC*H*W，将 Z3经过1x1卷积来进行锐化后，与Z2进行相加得到输出Z’∈RC*H*W； 4).设计基于交错空洞卷积UNet的语义分割网络基于交错空洞卷积UNet网络采用U型的编码 ‑解码结构，对于输入的图像I∈R1*224*224，首先经过左侧的编码器进行编码；输入的图像I经过3次3x3卷积和下采样操作，得到三种不同尺度的特征X1∈R64*112*112、 X2∈R256*56*56和X3∈R512*28*28；在进入解码器之前，特征X3 首先经过 12个Tran sformer层来进一步提升语义信息，得到特征X4∈R512*14*14；将特征X4经过3x3卷积以及上采样操作得到特征X3’∈R256*28*28；将特征X3与X3 ’进行拼接，并经过3x3卷积以及上采样操作，得到特征X2 ’ ∈R128*56*56；将特征X2分别经过AAC模块以及EP模块，并将得到的输出进行拼接得到特征M2 ∈R512*56*56，将M2经过1x1卷积以及3x3卷积得到特征M2 ’∈R256*56*56，在经过1x1卷积、 3x3卷积以及1x1卷积得到特征M2 ”∈R256*56*56，将特征M2 ’与特征M2 ”相加得到特征M2 ” ’∈R256 *56*56；将特征M2 ” ’与特征X2 ’进行拼接得到特征X1 ’∈R64*112*112；将特征X1分别经过AAC模块以及EP模块，并将得到的输出进行拼接得到特征M1∈R128*112*112，将M1经过1x1卷积以及3x3 卷积得到特征M1 ’∈R64*112*112，在经过1x1卷积、 3x3卷积以及1x1卷积得到特征M1 ”∈R64 *112*112，将特征M1 ’与特征M1 ”相加得到特征M1 ” ’∈R64*112*112；将特征M1 ” ’与特征X1 ’进行拼接得到特征X∈R128*112*112；对特征X进行3x3卷积以及上采样操作得到特征X ’∈R128*224*224；对特征X’进行3x3卷积以及语义分割头即1x1卷积得到输出Y’∈R8*224*224；步骤二:调整网络参数，进行神经网络的训练和测试采用Pytorch架构，使用优化器为随机梯度下降优化器；对于Synapse数据集和ACDC数据集，设置初始学习率为0.01、动量为0.9、权重衰减为1e ‑4、批大小为12、迭代次数为20k；对于ISIC2017数据集和PH2数据集，设置初始学习率为0.005、动量为0.9、权重衰减为1e ‑4、批大小为12、迭代次数为15k/7k；在模型训练过程中，使用的损失函数为：权　利　要　求　书 1/2 页 2 CN 115482379 A 2其中N为数据集的语义类别数， Yi′为模型对第i个语义类别的预测结果， Yi为第i个语义类别的真实值，表示对应元素相乘。权　利　要　求　书 2/2 页 3 CN 115482379 A 3

专利 基于交错空洞卷积UNet的图像语义分割方法

专利基于交错空洞卷积UNet的图像语义分割方法