全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210894321.5 (22)申请日 2022.07.27 (71)申请人 成都信息工程大学 地址 610225 四川省成 都市西南 航空港经 济开发区学府路一段24 号 (72)发明人 郭本俊 文立玉 廖文龙 赖育邦  许源平 俞文越 田霞飞  (74)专利代理 机构 宁波海曙甬睿专利代理事务 所(普通合伙) 33330 专利代理师 肖婧 (51)Int.Cl. G06V 20/64(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称 适用于移动端的轻量级三维目标检测方法、 装置及介质 (57)摘要 本发明公开一种适用于移动端的轻量级三 维目标检测方法、 装置及介质, 所述方法包括: 获 取或制作用于3D目标检测的数据集; 搭建模型, 所述模型包括MobileViT  block、 三个分支和全 连接层, 所述MobileViT  block与三个分支连接, 各分支连接所述全连接层; 基于所述数据集对 搭 建的模型进行训练; 对训练后的模 型进行处理得 到onnx模型; 将图像数据进行预处理并转换, 输 入至所述onnx模型中得到模型输 出; 基于模型输 出, 计算3D目标的全局方位角和3D检测框的多个 顶点坐标, 并绘制3D检测框和鸟瞰图。 本发明同 时拥有CNN和ViT相类似的属性和优点, 以此可以 用更少的参数学到更好的特征表 示, 从而实现移 动端3D目标检测的任务。 权利要求书3页 说明书13页 附图4页 CN 115359474 A 2022.11.18 CN 115359474 A 1.一种适用于移动端的轻量级三维目标检测方法, 其特 征在于, 所述方法包括: 获取或制作用于3D目标检测的数据集; 所述数据集包括多个训练图像及其对应的点云 数据和多个测试图像及其对应的点云数据; 搭建模型, 所述模型包括MobileViT  block、 三个分支和全连接层, 所述MobileViT   block与三个分支连接, 各分支连接所述全连接层, 所述Mob ileViT block用于对输入张量 中的局部和全局信息进 行建模, 并对 所有像素的信息进 行编码, 以使有效接收域为H ×W, 其 中H为输入长度, W 为输入宽度; 基于所述数据集对搭建的模型进行训练; 获取模型在训练过程中生成的模型权重文件, 并将所述模型权重文件转换为onnx文 件, 固定训练后的模 型的输入、 输出的形状和数据类型, 并进 行量化以减少训练后的模型大 小, 得到o nnx模型; 将图像数据进行 预处理并转换, 输入至所述 onnx模型中得到模型输出; 基于所述模型输出, 计算3D目标的全局方位角和3D检测框的多个顶点坐标, 并绘制3D 检测框和鸟瞰图。 2.根据权利要求1所述的方法, 其特征在于, 所述三个分支分别为维度预测分支、 旋转 角预测分支和置信度分支, 所述 维度预测分支输出三个参数宽、 高、 长, 通过3DIOU损失函数 实现维度的预测; 所述旋转角预测分支输出各区间对应的旋转角参数; 所述置信度分支输 出各个区间所对应的置信度。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述数据集对搭建的模型进行训 练, 包括: 根据目标旋转角所处区间, 来确定各个区间的置信度; 获取目标的2D边界框, 通过维度预测分支得到目标的维度, 通过区间置信度分支输出 各个区间的置信度, 选取置信度最大 的区间, 对从所述旋转角预测分支中得到对应区间的 旋转角参数sin(Δθi0)和cos(Δθi0)进行转换得到对应区间的残差角, 根据所述残差角得 到对应区间的局部 旋转角和全局旋转角; 训练模型的损失函数为: L=α *Ldim+Lθ 其中Ldim为维度损失函数, Lθ为旋转角损失函数, α 为预设的超参数, 以平衡维度损失函 数和旋转角损失函数。 4.根据权利要求3所述的方法, 其特征在于, 在对搭建的模型进行训练的过程中, 对训 练图像进行颜色失真处 理, 并随机对训练图像进行镜像翻转。 5.根据权利要求1所述的方法, 其特征在于, 所述图像数据包括三通道 的RGB图片和其 中对应的目标的2D检测 框, 所述将图像数据进行预处理并转换, 输入至所述onnx模型中得 到模型输出, 包括: 根据所有的2D检测框, 在所述RGB图片中剪裁出对应2D检测框中的图片区域, 将剪裁出 的区域统一缩放成预设像素 大小的图块; 对每个图块进行均值化处理, 再将每个图块的通道顺序由RGB转为BGR, 最后将每个图 块打包成一个张量作为所述 onnx模型的输入; 分别创建bin_anchor、 bin_conf、 alpha三个张量用于接收一次前向推理的输出; 其中, bin_anchor表示目标物体与其所属种类的三维长度的差值, bin_conf表示该物体的置信权 利 要 求 书 1/3 页 2 CN 115359474 A 2度, alpha表示该物体在三维空间中基于y轴的方向角, 随后根据目标所属的类别, 将bin_ anchor加上该类别的三维平均值, 得到目标的长、 宽、 高的预测值; 根据所述目标的长、 宽、 高的预测值和相机内参用投影公式计算出目标的全局方向角。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述模型输出, 计算3D目标的全 局方位角和3D检测框的多个顶点 坐标, 并绘制3D检测框和鸟瞰图, 包括: 根据全局方向角、 三维尺寸、 相机矩阵信息计算出目标的几何中心在相机坐标系下的 坐标, 并将其组合成一个矩阵与旋转矩阵点乘计算出三维目标检测框的八点 坐标; 根据三维目标检测框的八点 坐标计算出目标的鸟瞰图。 7.根据权利要求6所述的方法, 其特征在于, 通过如下公式计算出三维 目标检测框的八 点坐标: 其中, 表示一个点在图像坐标系中的坐标, 表示相机矩阵, 表示一个点在世界坐标系中的坐标, 表示形状为3 ×1的图像坐标系中的点坐标、 形状为3 ×4的相机矩阵、 形状为4 ×1的世界坐 标系中点坐 标, P表示相机矩阵, f表示相机的焦距, px表示在x轴的偏移量, py表示y轴的偏移 量。 8.根据权利要求1所述的方法, 其特征在于, 所述用于3D目标检测 的数据集包括在市 区、 乡村和高速公路场景采集的真实图像数据, 所述真实图像数据包括若干图像, 所述图像 中最多包含有15辆车和/或30个行人, 部分图像中的车辆或行人被障碍物部分或全部遮挡 与截断。 9.一种适用于移动端的轻量级三维目标检测装置, 其特 征在于, 所述装置包括: 获取模块, 被配置为获取或制作用于3D目标检测的数据集; 所述数据集包括多个训练 图像及其对应的点云数据和多个测试图像及其对应的点云数据; 模型搭建和训练模块, 被配置为搭建模型, 所述模型包括MobileViT  block、 三个分支 和全连接层, 所述MobileViT  block与三个分支连接, 各分支连接所述全连接层, 所述 MobileViT  block用于对输入张量中的局部和 全局信息进行建模, 并对所有像素的信息进 行编码, 以使有效接收域为H ×W, 其中H为输入长度, W为输入宽度; 基于所述数据集对搭建权 利 要 求 书 2/3 页 3 CN 115359474 A 3

.PDF文档 专利 适用于移动端的轻量级三维目标检测方法、装置及介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 适用于移动端的轻量级三维目标检测方法、装置及介质 第 1 页 专利 适用于移动端的轻量级三维目标检测方法、装置及介质 第 2 页 专利 适用于移动端的轻量级三维目标检测方法、装置及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:16:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。