全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210692153.1 (22)申请日 2022.06.17 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 章坚武 刘奕晨 郭春生 陈华华  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 杨天娇 (51)Int.Cl. G06V 10/26(2022.01) G06V 20/10(2022.01) G06V 10/77(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多维注意力机制的城市街景语义分割 增强方法 (57)摘要 本发明公开了一种基于多维注意力机制的 城市街景语义分割增强方法, 获取城市街景图 像, 提取低层特征图和高层特征图, 将提取的高 层特征图分别输入到空洞空间卷积池化金字塔 模块和多维注 意力融合模块, 将所述空洞空间卷 积池化金字塔模块和多维注意力融合模块的输 出进行元素相加, 得到第一特征图; 将低层特征 图与所述第一特征连接后, 再次输入到多维注意 力融合模块, 得到第二特征; 将低层特征图与所 述第一特征连接后的特征输入到解码模块的第 一个卷积层, 与所述第二特征进行元素相加, 在 经过解码模块第二个卷积层, 输出语义分割增强 后的图像。 本发明所构建的多维注意力融合模 块, 模型简单, 其运用可 以对远程上下文依赖性 较大的物体产生更好的预测结果。 权利要求书2页 说明书6页 附图2页 CN 115035298 A 2022.09.09 CN 115035298 A 1.一种基于多维注意力机制的城市街景语义分割增强方法, 其特征在于, 所述基于多 维注意力机制的城市街景语义分割增强方法, 包括: 获取城市街景图像, 输入到骨干网络ResNet101, 提取骨干网络ResNet101第一残差区 块输出的低层特 征图以及第四残差区块输出高层特 征图; 将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模 块, 将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加, 得 到第一特 征图; 将低层特征图与所述第一特征连接后, 再次输入到多维注意力融合模块, 得到第二特 征; 将低层特征图与所述第 一特征连接后的特征输入到解码模块的第 一个卷积层, 所述第 一个卷积层的输出特征与所述第二特征进行元素相加, 再经过解码模块第二个卷积层, 输 出语义分割增强后的图像; 其中, 所述多维注意力融合模块执 行如下操作: 提取高层特征图高度上的注意力权重, 与输入的高层特征图逐元素相乘, 得到第一阶 段特征图; 提取高层特征图宽度 上的注意力 权重, 将宽度上的注意力 权重和第 一阶段特征图逐元 素相乘, 得到第二阶段 特征图; 对高层特 征图在通道上采用全局池化操作, 得到通道域特 征图; 将第二阶段 特征图经过一个卷积 操作, 得到空间域特 征图; 融合空间域特 征图和通道域特 征图, 得到多维注意力融合模块输出的特 征图。 2.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法, 其特征 在于, 所述骨干网络ResNet101中的卷积层包括3层3 ×3卷积。 3.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法, 其特征 在于, 所述 提取高层特 征图高度上的注意力权 重, 包括: 对输入的高层特征图的宽度进行条状池化操作, 融合宽度上的长距离信息, 整合出每 个通道上 的高度特征, 对每个通道上 的高度特征进行降维操作, 得到通道在高度上二维张 量; 将通道在高度上二维张量进行平均池化, 然后使用针对多标签问题的sigmoid函数计 算出一个分布在[0,1]上的概 率, 得到带有高度上注意力权 重的二维张量; 将带有高度上注意力权 重的二维张量进行升维得到高度上的注意力权 重。 4.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法, 其特征 在于, 所述 提取高层特 征图宽度上的注意力权 重, 包括: 对输入的高层特征图的高度进行条状池化操作, 融合高度上的长距离信息, 整合出每 个通道上 的宽度特征, 对每个通道上 的宽度特征进行降维操作, 得到通道在宽度上二维张 量; 将通道在宽度上二维张量进行平均池化, 然后使用针对多标签问题的sigmoid函数计 算出一个分布在[0,1]上的概 率, 得到带有宽度上注意力权 重的二维张量; 将带有宽度上注意力权 重的二维张量进行升维得到 宽度上的注意力权 重。 5.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法, 其特征权 利 要 求 书 1/2 页 2 CN 115035298 A 2在于, 所述基于多维注意力机制的城市街景语义分割增强方法, 还 包括 计算所述骨干网络ResNet101中第三残差区块的输出损失; 计算所述 解码模块的最终输出损失; 分别为所述第 三残差区块的输出损失和解码模块的最终输出损失设置对应的权重, 计 算加权联合损失来完成网络训练。权 利 要 求 书 2/2 页 3 CN 115035298 A 3

.PDF文档 专利 基于多维注意力机制的城市街景语义分割增强方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多维注意力机制的城市街景语义分割增强方法 第 1 页 专利 基于多维注意力机制的城市街景语义分割增强方法 第 2 页 专利 基于多维注意力机制的城市街景语义分割增强方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:30:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。