专利适用于移动端的轻量级三维目标检测方法、装置及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210894321.5 (22)申请日 2022.07.27 (71)申请人成都信息工程大学地址 610225 四川省成都市西南航空港经济开发区学府路一段24 号 (72)发明人郭本俊　文立玉　廖文龙　赖育邦　许源平　俞文越　田霞飞　 (74)专利代理机构宁波海曙甬睿专利代理事务所(普通合伙) 33330 专利代理师肖婧 (51)Int.Cl. G06V 20/64(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称适用于移动端的轻量级三维目标检测方法、装置及介质 (57)摘要本发明公开一种适用于移动端的轻量级三维目标检测方法、装置及介质，所述方法包括：获取或制作用于3D目标检测的数据集；搭建模型，所述模型包括MobileViT block、三个分支和全连接层，所述MobileViT block与三个分支连接，各分支连接所述全连接层；基于所述数据集对搭建的模型进行训练；对训练后的模型进行处理得到onnx模型；将图像数据进行预处理并转换，输入至所述onnx模型中得到模型输出；基于模型输出，计算3D目标的全局方位角和3D检测框的多个顶点坐标，并绘制3D检测框和鸟瞰图。本发明同时拥有CNN和ViT相类似的属性和优点，以此可以用更少的参数学到更好的特征表示，从而实现移动端3D目标检测的任务。权利要求书3页说明书13页附图4页 CN 115359474 A 2022.11.18 CN 115359474 A 1.一种适用于移动端的轻量级三维目标检测方法，其特征在于，所述方法包括：获取或制作用于3D目标检测的数据集；所述数据集包括多个训练图像及其对应的点云数据和多个测试图像及其对应的点云数据；搭建模型，所述模型包括MobileViT block、三个分支和全连接层，所述MobileViT block与三个分支连接，各分支连接所述全连接层，所述Mob ileViT block用于对输入张量中的局部和全局信息进行建模，并对所有像素的信息进行编码，以使有效接收域为H ×W，其中H为输入长度， W 为输入宽度；基于所述数据集对搭建的模型进行训练；获取模型在训练过程中生成的模型权重文件，并将所述模型权重文件转换为onnx文件，固定训练后的模型的输入、输出的形状和数据类型，并进行量化以减少训练后的模型大小，得到o nnx模型；将图像数据进行预处理并转换，输入至所述 onnx模型中得到模型输出；基于所述模型输出，计算3D目标的全局方位角和3D检测框的多个顶点坐标，并绘制3D 检测框和鸟瞰图。 2.根据权利要求1所述的方法，其特征在于，所述三个分支分别为维度预测分支、旋转角预测分支和置信度分支，所述维度预测分支输出三个参数宽、高、长，通过3DIOU损失函数实现维度的预测；所述旋转角预测分支输出各区间对应的旋转角参数；所述置信度分支输出各个区间所对应的置信度。 3.根据权利要求2所述的方法，其特征在于，所述基于所述数据集对搭建的模型进行训练，包括：根据目标旋转角所处区间，来确定各个区间的置信度；获取目标的2D边界框，通过维度预测分支得到目标的维度，通过区间置信度分支输出各个区间的置信度，选取置信度最大的区间，对从所述旋转角预测分支中得到对应区间的旋转角参数sin(Δθi0)和cos(Δθi0)进行转换得到对应区间的残差角，根据所述残差角得到对应区间的局部旋转角和全局旋转角；训练模型的损失函数为： L＝α *Ldim+Lθ 其中Ldim为维度损失函数， Lθ为旋转角损失函数， α 为预设的超参数，以平衡维度损失函数和旋转角损失函数。 4.根据权利要求3所述的方法，其特征在于，在对搭建的模型进行训练的过程中，对训练图像进行颜色失真处理，并随机对训练图像进行镜像翻转。 5.根据权利要求1所述的方法，其特征在于，所述图像数据包括三通道的RGB图片和其中对应的目标的2D检测框，所述将图像数据进行预处理并转换，输入至所述onnx模型中得到模型输出，包括：根据所有的2D检测框，在所述RGB图片中剪裁出对应2D检测框中的图片区域，将剪裁出的区域统一缩放成预设像素大小的图块；对每个图块进行均值化处理，再将每个图块的通道顺序由RGB转为BGR，最后将每个图块打包成一个张量作为所述 onnx模型的输入；分别创建bin_anchor、 bin_conf、 alpha三个张量用于接收一次前向推理的输出；其中， bin_anchor表示目标物体与其所属种类的三维长度的差值， bin_conf表示该物体的置信权　利　要　求　书 1/3 页 2 CN 115359474 A 2度， alpha表示该物体在三维空间中基于y轴的方向角，随后根据目标所属的类别，将bin_ anchor加上该类别的三维平均值，得到目标的长、宽、高的预测值；根据所述目标的长、宽、高的预测值和相机内参用投影公式计算出目标的全局方向角。 6.根据权利要求5所述的方法，其特征在于，所述基于所述模型输出，计算3D目标的全局方位角和3D检测框的多个顶点坐标，并绘制3D检测框和鸟瞰图，包括：根据全局方向角、三维尺寸、相机矩阵信息计算出目标的几何中心在相机坐标系下的坐标，并将其组合成一个矩阵与旋转矩阵点乘计算出三维目标检测框的八点坐标；根据三维目标检测框的八点坐标计算出目标的鸟瞰图。 7.根据权利要求6所述的方法，其特征在于，通过如下公式计算出三维目标检测框的八点坐标：其中，表示一个点在图像坐标系中的坐标，表示相机矩阵，表示一个点在世界坐标系中的坐标，表示形状为3 ×1的图像坐标系中的点坐标、形状为3 ×4的相机矩阵、形状为4 ×1的世界坐标系中点坐标， P表示相机矩阵， f表示相机的焦距， px表示在x轴的偏移量， py表示y轴的偏移量。 8.根据权利要求1所述的方法，其特征在于，所述用于3D目标检测的数据集包括在市区、乡村和高速公路场景采集的真实图像数据，所述真实图像数据包括若干图像，所述图像中最多包含有15辆车和/或30个行人，部分图像中的车辆或行人被障碍物部分或全部遮挡与截断。 9.一种适用于移动端的轻量级三维目标检测装置，其特征在于，所述装置包括：获取模块，被配置为获取或制作用于3D目标检测的数据集；所述数据集包括多个训练图像及其对应的点云数据和多个测试图像及其对应的点云数据；模型搭建和训练模块，被配置为搭建模型，所述模型包括MobileViT block、三个分支和全连接层，所述MobileViT block与三个分支连接，各分支连接所述全连接层，所述 MobileViT block用于对输入张量中的局部和全局信息进行建模，并对所有像素的信息进行编码，以使有效接收域为H ×W，其中H为输入长度， W为输入宽度；基于所述数据集对搭建权　利　要　求　书 2/3 页 3 CN 115359474 A 3

专利 适用于移动端的轻量级三维目标检测方法、装置及介质

专利适用于移动端的轻量级三维目标检测方法、装置及介质