专利基于聚集指导学习机制的室内RGB-D语义分割方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211044480.2 (22)申请日 2022.08.30 (71)申请人武汉大学地址 430072 湖北省武汉市武昌区珞珈山街道八一路2 99号 (72)发明人郑先伟　宦麟茜　岳林蔚　吴秀杰　熊汉江　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 专利代理师严彦 (51)Int.Cl. G06V 20/00(2022.01) G06V 10/26(2022.01) G06V 10/30(2022.01) G06V 10/88(2022.01)G06V 10/82(2022.01) G06V 10/54(2022.01) G06V 10/56(2022.01) G06V 10/80(2022.01) (54)发明名称基于聚集指导学习机制的室内RGB-D语义分割方法及系统 (57)摘要本发明提供一种基于聚集指导学习机制的室内RGB‑D语义分割方法及系统，设置跨模态聚集指导机制的融合模块，通过自适应模态校准的方式实现互补信息的提取与融合，保留有利于分割任务的特征并抑制冗余的噪音信息；所述跨模态聚集指导融合模块由一个特征聚集编码器和一个特征指导器构成，所述特征聚集编码器，用于挖掘RGB ‑D的互补特征，包括先利用区域自适应池化操作高度概括模态间高层语义特征，再通过门控融合模块有选择地融合两组全局描述算子从而生成一组跨模态的描述算子，该描述算子包含了RGB和深度数据有利的互补信息；所述特征指导器，用于根据由跨模态算子生成的通道权重指导向量对RGB特征响应进行矫正优化。权利要求书2页说明书5页附图2页 CN 115546616 A 2022.12.30 CN 115546616 A 1.一种基于聚集指导学习机制的室内RGB ‑D语义分割方法，其特征在于：设置跨模态聚集指导机制的融合模块，通过自适应模态校准的方式实现互补信息的提取与融合，保留有利于分割任务的特征并抑制冗余的噪音信息；所述跨模态聚集指导融合模块由一个特征聚集编码器和一个特征指导器构成，所述特征聚集编码器，用于挖掘RGB ‑D的互补特征，包括先利用区域自适应池化操作高度概括模态间高层语义特征，再通过门控融合模块有选择地融合两组全局描述算子从而生成一组跨模态的描述算子，该描述算子包含了RGB和深度数据有利的互补信息；所述特征指导器，用于根据由跨模态算子生成的通道权重指导向量对RGB特征响应进行矫正优化。 2.根据权利要求1所述基于聚集指导学习机制的室内RGB ‑D语义分割方法，其特征在于： RGB输入与深度数据HHA输入分别经双分支编码器结构后，输入跨模态聚集指导机制的融合模块，特征聚集编码器中首先采用区域自适应池化操作，分别对RGB特征与HHA特征进行全局语义压缩，然后输入门控融合模块。 3.根据权利要求2所述基于聚集指导学习机制的室内RGB ‑D语义分割方法，其特征在于：区域自适应池化操作实现方式为，首先对输入特征X做1 ×1卷积操作，增强给定输入特征的表达层次，随后利用空间池化金字塔模块丰富多尺度上下文信息特征得到特征映射Y，再经过softmax激活函数保留最显著的区域，同时平滑特征图中弱响应和有噪音的区域，进而生成权重图，记为语义区域映射图B；对输入特征X通过1×1卷积操作进行降维，得到降维结果A，对于降维结果A中的每个特征图，通过应用B计算一个n维的全局描述算子用来表示全局信息，计算得到全局描述算子向量gl；全局描述算子向量gl中的数值表现A是否在B所呈现的语义区域中包含有效信息。 4.根据权利要求2所述基于聚集指导学习机制的室内RGB ‑D语义分割方法，其特征在于：门控融合模块的实现方式为，记Grgb和Gdep分别是由RGB特征和深度特征生成的全局描述算子，而Gfus是两个全局描述算子拼接在一起的结果；将Gfus经过一个1 ×1卷积操作和sigmoid函数后，得到两种全局描述算子的贡献度权值，分别记为 W,1‑W，进而得到门控融合表达式如下，上式中⊙为哈达玛乘积操作，与分别表示经过贡献度权重过滤后的RGB全局描述算子和深度全局描述算子，而为最终生成的跨模态全局描述算子。 5.根据权利要求1或2或3或4所述基于聚集指导学习机制的室内RGB ‑D语义分割方法，其特征在于：特征指导器实现方式如下，首先对跨模态全局描述算子利用加权平均操作压缩为一组全局向量v，然后经过一个 1×1卷积操作构建非线性交互，再利用激活函数sigmoid将全局向量的数值映射到(0,1)的范围得到通道权值向量 Wguide；权　利　要　求　书 1/2 页 2 CN 115546616 A 2得到Wguide之后通过门控机制对RGB特征相应的降维结果A进行过滤增强，使得RGB特征的语义表现更加集中在语义分割任务上；特征指导器所得过滤结果经解码器与原始RGB特征图相融合。 6.一种基于聚集指导学习机制的室内RGB ‑D语义分割系统，其特征在于：用于实现如权利要求1‑5任一项所述的一种基于聚集指导学习机制的室内RGB ‑D语义分割方法。 7.根据权利要求6所述基于聚集指导学习机制的室内RGB ‑D语义分割系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1 ‑5任一项所述的一种基于聚集指导学习机制的室内RGB ‑D语义分割方法。 8.根据权利要求6所述基于聚集指导学习机制的室内RGB ‑D语义分割系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1 ‑5任一项所述的一种基于聚集指导学习机制的室内RGB ‑D语义分割方法。权　利　要　求　书 2/2 页 3 CN 115546616 A 3

专利 基于聚集指导学习机制的室内RGB-D语义分割方法及系统

专利基于聚集指导学习机制的室内RGB-D语义分割方法及系统