专利基于深度学习的三维物体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211005938.3 (22)申请日 2022.08.22 (71)申请人重庆科技学院地址 401331 重庆市沙坪坝区大学城东路 20号 (72)发明人周伟　肖亿　郑黎　漆仲黎　赵怡恒　易军　黄河　刘洪　赵猛　 (74)专利代理机构重庆蕴博君晟知识产权代理事务所(普通合伙) 50223 专利代理师王玉芝 (51)Int.Cl. G06V 20/64(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01)G06V 10/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度学习的三维物体识别方法 (57)摘要本发明提供一种可用于三维物体识别方法，首先通过采集三维物体数据，同时加入三维物体识别的公共数据作为数据集，通过反射模型渲染图像,映射为均匀水平方向上的2D图像序列，然后对2D图像序列使用数据增强，将预处理后的图像输入到ResNeXt分类网络，利用ResNeXt的前22 层提取语义特征，并对语义特征进行最大化操作获得全局混合特征，通过注意力扩展模块提取全局混合特征特征。另外，利用带标签平滑的分类模块来分类特征。权利要求书2页说明书4页附图2页 CN 115359475 A 2022.11.18 CN 115359475 A 1.基于深度学习的三维物体识别方法，其特征在于，包括以下步骤： S1：采集三维物体数据，同时加入三维物体识别的公共数据作为数据集； S2：通过反射模型渲染图像,将三维物体数据映射为均匀水平方向上的二维图像序列； S3：对二维图像序列使用数据增强，随机色彩扰动和水平旋转的策略可以增加训练集的丰富性和网络模型的泛化性，并且计算二维图像的标准差和平均值，并将其应用于训练数据，以此来加快网络的收敛速度； S4：搭建多尺度扩展卷积网络对三维物体进行识别，使用ResNeXt作为主干网络，在前 22个卷积层中提取语义信息，再将最大化操作得到的混合语义特征输入到注意力扩展模块，提取更大的感受野特征，增强各个视图的上下文信息，然后使用ResNeXt剩下的卷积层作为特征解码器； S5：在训练时，使用标签平滑方法，标签平滑方法可以将硬标签转换为软标签，以防止模型在训练过程中过度信任真实标签，从而提高模型对未知数据的泛化能力。 2.根据权利要求1所述基于深度学习的三维物体识别方法，其特征在于步骤S2所述，通过反射模型渲染图像,映射为均匀水平方向上的2D图像序列，其具体步骤如下： S21:将虚拟相机的分辨率设置为固定尺寸，图像的背景设置为固定颜色，同时虚拟相机垂直于Z轴的水平面上，这样能够得到三维形状的正面视图； S22：由于没有关于形状直立方向一致的假设，选择从0 °到360°每隔一定的角度放置一个虚拟相机，从更多的角度来呈现三维形状，多个虚拟相机在多角度拍摄产生良好的视图。 3.根据权利要求1所述基于深度学习的三维物体识别方法，其特征在于步骤S4所述，搭建多尺度扩展卷积网络对三维物体进行识别，其具体步骤如下： S41:通过ResNeXt网络的前22个卷积层来提取不同角度视图的语义特征，然后输出各个视图的特征映射集，采用元素最大化运算来提取全局特征融合最大值，利用特征映射集在宽高维度上的优势，具有强大表达能力的膨胀卷积可以进一步挖掘和细化特征映射集的潜在关系； S42:搭建注意力模块，先采用1 ×1卷积层将通道维数降低到二分之一，减少卷积的计算量；然后再使用膨胀卷积提取全局感受野特征并细化语义上下文，膨胀卷积可以从全局特征中提取丰富的上下文信息，但它将伴随着巨大的特征冗余；为此，在膨胀卷积模块中引入注意力机制，专注于消除特征冗余的负面影响，确保空间维度的关注区域，同时关注重要的特征通道；最后，使用1 ×1卷积层恢复通道数； S43:串联注意力模块组成注意力扩展模块，对于注意力扩展模块的通道注意力部分，对输入特征应用Max pooling操作和Avg pooling操作以获得两个具有丰富特征的描述，计算结果表示为和然后将和分别输入到共享多层感知器中，生成通道注意力图 (C为通道数)，带一个隐藏层,MLP第一层中的神经元数设置为使用通道数计算的值，以减少计算量，将共享网络应用于每个描述符后，使用元素求和对输出特征向量进行积分， M c(F)由以下所示：其中σ 表示Sigmo id函数；权　利　要　求　书 1/2 页 2 CN 115359475 A 2将和两个描述符连接起来以生成有效的特征F,然后应用核大小为K的卷积层来生成空间注意图Ms(F)∈RW×H，即最后，为了使注意力扩展模块的输出特征覆盖各种尺度上的所有语义特征，对输入和F 进行了残差运算，即输入和F之间的向量相加； S44:使用ResNeXt网络的剩下的卷积层作为注意力扩展模块的解码器，提升特征分类能力；同时使用自适应平均池化将解码器输出的空间维度进行压缩，抑制无效信息对分类结果的影响。权　利　要　求　书 2/2 页 3 CN 115359475 A 3

专利 基于深度学习的三维物体识别方法

专利基于深度学习的三维物体识别方法