专利基于多维注意力机制的城市街景语义分割增强方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210692153.1 (22)申请日 2022.06.17 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人章坚武　刘奕晨　郭春生　陈华华　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师杨天娇 (51)Int.Cl. G06V 10/26(2022.01) G06V 20/10(2022.01) G06V 10/77(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多维注意力机制的城市街景语义分割增强方法 (57)摘要本发明公开了一种基于多维注意力机制的城市街景语义分割增强方法，获取城市街景图像，提取低层特征图和高层特征图，将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块，将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加，得到第一特征图；将低层特征图与所述第一特征连接后，再次输入到多维注意力融合模块，得到第二特征；将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层，与所述第二特征进行元素相加，在经过解码模块第二个卷积层，输出语义分割增强后的图像。本发明所构建的多维注意力融合模块，模型简单，其运用可以对远程上下文依赖性较大的物体产生更好的预测结果。权利要求书2页说明书6页附图2页 CN 115035298 A 2022.09.09 CN 115035298 A 1.一种基于多维注意力机制的城市街景语义分割增强方法，其特征在于，所述基于多维注意力机制的城市街景语义分割增强方法，包括：获取城市街景图像，输入到骨干网络ResNet101，提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图；将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块，将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加，得到第一特征图；将低层特征图与所述第一特征连接后，再次输入到多维注意力融合模块，得到第二特征；将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层，所述第一个卷积层的输出特征与所述第二特征进行元素相加，再经过解码模块第二个卷积层，输出语义分割增强后的图像；其中，所述多维注意力融合模块执行如下操作：提取高层特征图高度上的注意力权重，与输入的高层特征图逐元素相乘，得到第一阶段特征图；提取高层特征图宽度上的注意力权重，将宽度上的注意力权重和第一阶段特征图逐元素相乘，得到第二阶段特征图；对高层特征图在通道上采用全局池化操作，得到通道域特征图；将第二阶段特征图经过一个卷积操作，得到空间域特征图；融合空间域特征图和通道域特征图，得到多维注意力融合模块输出的特征图。 2.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法，其特征在于，所述骨干网络ResNet101中的卷积层包括3层3 ×3卷积。 3.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法，其特征在于，所述提取高层特征图高度上的注意力权重，包括：对输入的高层特征图的宽度进行条状池化操作，融合宽度上的长距离信息，整合出每个通道上的高度特征，对每个通道上的高度特征进行降维操作，得到通道在高度上二维张量；将通道在高度上二维张量进行平均池化，然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率，得到带有高度上注意力权重的二维张量；将带有高度上注意力权重的二维张量进行升维得到高度上的注意力权重。 4.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法，其特征在于，所述提取高层特征图宽度上的注意力权重，包括：对输入的高层特征图的高度进行条状池化操作，融合高度上的长距离信息，整合出每个通道上的宽度特征，对每个通道上的宽度特征进行降维操作，得到通道在宽度上二维张量；将通道在宽度上二维张量进行平均池化，然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率，得到带有宽度上注意力权重的二维张量；将带有宽度上注意力权重的二维张量进行升维得到宽度上的注意力权重。 5.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法，其特征权　利　要　求　书 1/2 页 2 CN 115035298 A 2在于，所述基于多维注意力机制的城市街景语义分割增强方法，还包括计算所述骨干网络ResNet101中第三残差区块的输出损失；计算所述解码模块的最终输出损失；分别为所述第三残差区块的输出损失和解码模块的最终输出损失设置对应的权重，计算加权联合损失来完成网络训练。权　利　要　求　书 2/2 页 3 CN 115035298 A 3

专利 基于多维注意力机制的城市街景语义分割增强方法

专利基于多维注意力机制的城市街景语义分割增强方法