专利基于多元回归和自适应焦点损失的密集物体图像检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210902379.X (22)申请日 2022.07.29 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人王俊杰　赵立业　黄程韦　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师周蔚然 (51)Int.Cl. G06V 10/22(2022.01) G06V 10/25(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多元回归和自适应焦点损失的密集物体图像检测方法 (57)摘要本发明公开了一种基于多元回归和自适应焦点损失的密集物体图像检测方法，先使用图像采集设备从超市货架场景中采集原始图像，并对采集的图像数据进行预处理与增强；对不同类型以及不同检测难度的商品目标进行标注，并按照预设比例进行数据集划分；构建基于RetinaNet 的深度学习模型作为基线模型，输入商品图像进行训练；建立多元回归网络和NMS ‑Score机制，根据前置网络提取的特征生成目标边界框的信息和目标类别；使用候选框与真实值的偏差生成 NMS‑Score作为NMS排序依据，并引入自适应焦点损失来训练模型，根据训练后的商品检测模型，检测出对应商品的位置。本发明通过多元回归网络、 NMS‑Score机制和自适应焦点损失来提高密集场景下零售商品检测的准确率，具有良好的应用前景。权利要求书2页说明书7页附图2页 CN 115272652 A 2022.11.01 CN 115272652 A 1.基于多元回归和自适应焦点损失的密集物体图像检测方法，其特征在于，包括如下步骤：步骤A、使用图像采集设备从超市货架场景中采集原始图像，并对采集的图像数据进行预处理与增强；步骤B、对不同类型以及不同检测难度的商品目标进行标注，并按照预设比例进行数据集划分；步骤C、构建基于Retin aNet的深度学习模型作为基线模型，输入步骤B处理完成的图像进行训练；步骤D、建立多元回归网络和NMS ‑Score机制，根据前置网络提取的特征生成目标边界框的信息和目标类别；步骤E、使用候选框与真实值的偏差生成NMS ‑Score作为NMS排序依据，并引入自适应焦点损失来训练模型，根据训练后的商品检测模型，检测出对应商品的位置。 2.根据权利要求1所述的基于多元回归和自适应焦点损失的密集物体图像检测方法，其特征在于，步骤B操作如下：步骤B1、对不同类型以及不同检测难度的商品目标进行标注，标注方法分为两个层次：第一个层次是标注出目标边框的左上、右上、左下、右下四个角的位置在图像中的坐标；第二个层次是目标的检测难度，将其分为简单、中等、困难这三种等级，标注为数字1、 2、 3，步骤B2、对标注好的数据集按照预设比例进行划分，主要划分为训练集、验证集和测试集三种数据。 3.根据权利要求1所述的基于多元回归和自适应焦点损失的密集物体图像检测方法，其特征在于，步骤C中， RetinaNet包括依次连接的残差卷积网络、特征金字塔网络，即使用 ResNet作为主干网络进行特征提取，使用FPN进行多尺度融合，输入图像经过主干网络的特征提取后，得到5种不同尺寸的特征图金字塔，在得到特征金字塔后，对每层特征金字塔分别使用分类网络和检测框生成网络， Ret inaNet使用锚框来产生一系列候选区作为检测框，使用分类网络直接区分出数据集的类别数量，特征金字塔每层都相应的产生目标类别与位置的预测，最后再将其融合起来，同时使用NMS来得到最后的检测结果。 4.根据权利要求1所述的基于多元回归和自适应焦点损失的密集物体图像检测方法，其特征在于，步骤D操作如下：步骤D1、使用多元回归网络，以上一层特征金字塔网络输出的特征图作为输入，对于上一层特征融合层输出的特征图，通过多层卷积改变其通道数，对商品目标的边界位置进行星型边界回归，这里的H和W就表示将原图分为H*W个区域，每个区域负责检测中心点与当前区域的中心点最近，且范围包含了当前区域的商品目标，多元回归网络主要由星型边界回归法和三路不同功能的卷积相结合而成，星型边界回归负责确定当前区域存在目标的边界位置，三路卷积则分别获取边界框缩放系数、边界框距离、边界框准确度评分，步骤D2、构建星型边界回归网络，星型边界回归使用了固定的9个采样点，通过可变形卷积来表示边界框，这9个采样点包括当前检测区域中心点、候选边界框与区域中心点水平和竖直线相交的4个点、以及候选边界框的四个角落点，具体来说，设定一个采样点(x， y)为当前检测区域的中心点坐标，首先使用一组3x3的卷积回归出该物体上下左右边界与当前检测区域中心点的距离(l， t， r， b)，在使用这个距离向量的基础上，启发式地选择出剩余四权　利　要　求　书 1/2 页 2 CN 115272652 A 2个边界角点，这9 个采样点表示为： (x， y)， (x ‑l， y)， (x， y ‑t)， (x+t， y)， (x， y+b)， (x ‑l， y‑t)， (x‑r， y‑b)， (x‑l， y+b)和(x+r， y+b)，最后将这9 个点映射到特征图上，使用可变形卷积来表示边界框，步骤D3、在步骤D2的基础上，使用三路卷积获取多元回归信息，第一路卷积，将上游特征图通过多层残差学习，连接到第二路卷积中生成的原始预测距离(l， t， r， b)结合生成星型边界特征图，通过一个可变形卷积与多层3x3的卷积学习出4个距离缩放因子( △l,△t, △r,△b)，原始预测距离与缩放因子向量点乘即可获得最终边界预测距离，第二路卷积，即通过多层卷积层学习出原始预测距离(l， t， r， b)，以供第一路使用，接着，根据第一路获取的距离缩放因子，计算出最终边界预测距离，计算方法为点乘计算，用公式表示为第三路卷积，获取边界框准确度评分和当前目标所属的分类，输出张量维度为H ×W× (N+1)，其中H和W 为上游特征图输出的长宽数值， N 为数据集商品类别总数，步骤D4、 NMS ‑Score机制步骤D3的第三路卷积的基础上，使用第三路卷积获取的边界框准确度评分，其预测值由卷积网络生成，真实值用公式表示为：其中， Δ表示(l,t,r,b)的预测值与真实值之差的绝对值， ε表示一个极小值，用来防止分母为0，因此，当网络生成的(l,t,r,b)越接近真实值， tanh中的参数则趋近于无穷，此时 NMS Score约定于1；相反，如果此时候选框与真实值差别很大， Score值则接近于0。 5.根据权利要求1所述的基于多元回归和自适应焦点损失的密集物体图像检测方法，其特征在于，步骤E操作如下：步骤E1、使用候选框与真实值的偏差生成NMS ‑Score作为 NMS排序依据，步骤E2、引入自适应焦点损失来训练模型，根据训练后的商品检测模型，检测出对应商品的位置，分类损失函数用来判断当前检测区域内的物体是否存在，引入自适应焦点损失来进行二元分类，损失函数在交叉熵的基础上增加了两个超参数，即权重系数α,γ，将预测框中心与真实框中心的距离ω作为损失函数的参数参与计算，与检测区域中心与真实人体中心距离越远，则损失函数越小，当检测区域内没有人体存在时， ω＝0，损失函数公式如下：其中，权重α用来平衡正负样本的不均衡，权重γ用来区分难易样本， p为置信度的预测值， ω为预测框中心与真实框中心的距离，初始状态下γ值为0，当γ增加时，调整因子也在增加，即简单样本产生的l oss逐渐被抑制，随着γ值增大简单样本产生的l oss则大幅缩小。权　利　要　求　书 2/2 页 3 CN 115272652 A 3

专利 基于多元回归和自适应焦点损失的密集物体图像检测方法

专利基于多元回归和自适应焦点损失的密集物体图像检测方法