(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210902379.X
(22)申请日 2022.07.29
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 王俊杰 赵立业 黄程韦
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 周蔚然
(51)Int.Cl.
G06V 10/22(2022.01)
G06V 10/25(2022.01)
G06V 10/764(2022.01)
G06V 10/766(2022.01)
G06V 10/774(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多元回归和自适应焦点损失的密集物
体图像检测方法
(57)摘要
本发明公开了一种基于多元回归和自适应
焦点损失的密集物体图像检测方法, 先使用图像
采集设备从超市货架场景中采集原始图像, 并对
采集的图像数据进行预处理与增强; 对不同类型
以及不同检测难度的商品目标进行标注, 并按照
预设比例进行数据集划分; 构建基于RetinaNet
的深度学习模 型作为基线模型, 输入商品图像进
行训练; 建立多元回归网络和NMS ‑Score机制, 根
据前置网络提取的特征生成目标边界框的信息
和目标类别; 使用候选框与真实值的偏差生成
NMS‑Score作为NMS排序依据, 并引入自适应焦点
损失来训练模型, 根据训练后的商品检测模型,
检测出对应商品的位置。 本发明通过多元回归网
络、 NMS‑Score机制和自适应焦点损失来提高密
集场景下零售商品检测的准确率, 具有良好的应
用前景。
权利要求书2页 说明书7页 附图2页
CN 115272652 A
2022.11.01
CN 115272652 A
1.基于多元回归和自适应焦点损失的密集物体图像检测方法, 其特征在于, 包括如下
步骤:
步骤A、 使用图像采集设备从超市货架场景中采集原始图像, 并对采集的图像数据进行
预处理与增强;
步骤B、 对不同类型以及不同检测难度的商品目标进行标注, 并按照预设比例进行数据
集划分;
步骤C、 构建基于Retin aNet的深度学习模型作为基线模型, 输入步骤B处理完成的图像
进行训练;
步骤D、 建立多元回归网络和NMS ‑Score机制, 根据前置网络提取的特征生成目标边界
框的信息和目标类别;
步骤E、 使用候选框与真实值的偏差生成NMS ‑Score作为NMS排序依据, 并引入自适应焦
点损失来训练模型, 根据训练后的商品检测模型, 检测出对应商品的位置 。
2.根据权利要求1所述的基于多元回归和自适应焦点损失的密集物体图像检测方法,
其特征在于, 步骤B操作如下:
步骤B1、 对不同类型以及不同检测难度的商品目标进行标注, 标注方法分为两个层次:
第一个层次是标注出目标边框的左上、 右上、 左下、 右下四个角的位置在图像中的坐标; 第
二个层次是目标的检测难度, 将其分为简单、 中等、 困难这 三种等级, 标注为数字1、 2、 3,
步骤B2、 对标注好的数据集按照预设比例进行划分, 主要划分为训练集、 验证集和测试
集三种数据。
3.根据权利要求1所述的基于多元回归和自适应焦点损失的密集物体图像检测方法,
其特征在于, 步骤C中, RetinaNet包括依次连接的残差卷积网络、 特征金字塔网络, 即使用
ResNet作为主干网络进 行特征提取, 使用FPN进行多尺度融合, 输入图像经过主干网络的特
征提取后, 得到5种不同尺寸的特征图金字塔, 在得到特征金字塔后, 对每层特征金字塔分
别使用分类网络和检测框生 成网络, Ret inaNet使用锚框来产生一系 列候选区作为检测框,
使用分类网络直接区分出数据集的类别数量, 特征金字塔每层都相应的产生目标类别与位
置的预测, 最后再将其融合 起来, 同时使用NMS来得到最后的检测结果。
4.根据权利要求1所述的基于多元回归和自适应焦点损失的密集物体图像检测方法,
其特征在于, 步骤D操作如下:
步骤D1、 使用多元回归 网络, 以上一层特征金字塔网络输出的特征图作为输入, 对于上
一层特征融合层输出 的特征图, 通过多层卷积改变其通道数, 对商品目标的边界位置进行
星型边界回归, 这里的H和W就表示将原图分为H*W个区域, 每个区域负责检测中心 点与当前
区域的中心点最近, 且范围包含了当前区域的商品目标, 多元回归网络主要由星型边界回
归法和三路不同功能的卷积相结合而成, 星 型边界回归负责确定当前区域存在目标的边界
位置, 三路卷积则分别获取边界框缩放系数、 边界框距离、 边界框准确度评分,
步骤D2、 构建星型边界回归网络, 星型边界回归使用了固定的9个采样点, 通过可变形
卷积来表示边界框, 这9个采样点包括当前检测区域中心 点、 候选边界框与区域中心点水平
和竖直线相交的4个点、 以及候选边界框的四个角落点, 具体来说, 设定一个采样点(x, y)为
当前检测区域的中心点坐标, 首先使用一组3x3的卷积回归出该物体上下左右边界与当前
检测区域中心点的距离(l, t, r, b), 在 使用这个距离向量的基础上, 启发 式地选择出剩余四权 利 要 求 书 1/2 页
2
CN 115272652 A
2个边界角点, 这9 个采样点表示为: (x, y), (x ‑l, y), (x, y ‑t), (x+t, y), (x, y+b), (x ‑l, y‑t),
(x‑r, y‑b), (x‑l, y+b)和(x+r, y+b), 最后将这9 个点映射到 特征图上, 使用可变形卷积来表
示边界框,
步骤D3、 在步骤D2的基础上, 使用三路卷积获取多元回归信息, 第一路卷积, 将上游特
征图通过多层残差学习, 连接到第二路卷积中生成的原始预测距离(l, t, r, b)结合生成星
型边界特征图, 通过一个可变形卷积与多层3x3的卷积学习出4个距离缩放因子( △l,△t,
△r,△b), 原始预测距离与缩放因子向量 点乘即可获得最终边界预测距离,
第二路卷积, 即通过多层卷积层学习出原始预测距离(l, t, r, b), 以供第一路使用, 接
着, 根据第一路获取的距离缩放因子, 计算出最终边界预测距离, 计算方法为点乘计算, 用
公式表示 为
第三路卷积, 获取边界框准确度评分和当前目标所属的分类, 输出张量维度为H ×W×
(N+1), 其中H和W 为上游特 征图输出的长 宽数值, N 为数据集商品类别总数,
步骤D4、 NMS ‑Score机制步骤D3的第三路卷积的基础 上, 使用第三路卷积获取的边界框
准确度评分, 其预测值由卷积网络生成, 真实值用公式表示 为:
其中, Δ表示(l,t,r,b)的预测值与真实值之差的绝对值, ε表示一个极小值, 用来防止
分母为0, 因此, 当网络生成 的(l,t,r,b)越接近真实值, tanh中的参数则趋近于无穷, 此时
NMS Score约定 于1; 相反, 如果此时候选 框与真实值差别很大, Score值则接 近于0。
5.根据权利要求1所述的基于多元回归和自适应焦点损失的密集物体图像检测方法,
其特征在于, 步骤E操作如下:
步骤E1、 使用候选 框与真实值的偏差生成NMS ‑Score作为 NMS排序依据,
步骤E2、 引入自适应焦点损失来训练模型, 根据训练后的商品检测模型, 检测出对应商
品的位置, 分类损失函数用来判断当前检测区域内的物体是否存在, 引入自适应焦点损失
来进行二元分类, 损失函数在交叉熵的基础上增加了两个超参数, 即权重系数α,γ, 将预测
框中心与真实框中心的距离ω作为损失函数的参数参与计算, 与检测区域中心与真实人体
中心距离越远, 则损失函数越小, 当检测区域内没有人体存在时, ω=0, 损失函数公式如
下:
其中, 权重α用来平衡正负样本的不均衡, 权重γ用来区分难易样本, p为置信度的预测
值, ω为预测框中心与真实框中心的距离, 初始状态下γ值为0, 当γ增加时, 调整因子也在
增加, 即简单样本产生的l oss逐渐被抑制, 随着γ值增大简单样本产生的l oss则大幅缩小。权 利 要 求 书 2/2 页
3
CN 115272652 A
3
专利 基于多元回归和自适应焦点损失的密集物体图像检测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:14:30上传分享