专利多人行为识别方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211012593.4 (22)申请日 2022.08.23 (71)申请人深圳市赛为智能股份有限公司地址 518000 广东省深圳市龙岗区南湾街道下李朗社区联李东路8号赛为大楼 A101至15楼 (72)发明人胡懋成　王秋阳　周婧雯　汪玉冰　郑博超　凤阳　 (74)专利代理机构深圳市精英专利事务所 44242 专利代理师周永敬 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) (54)发明名称多人行为识别方法、装置、计算机设备及存储介质 (57)摘要本发明实施例公开了一种多人行为识别方法、装置、计算机设备及存储介质，其中方法包括：获取检测区域内的图像数据；对图像数据进行切帧处理，以得到多帧静态图片；将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。本发明结合了多目标跟踪、关键点检测以及光流估计方法，可以有效的对多目标移动的人体进行实时行为识别，对较短时间段内大幅移动人体的行为检测有很好的兼容性，提高了模型在不同场景识别的鲁棒性以及准确性，使得模型对于复杂内容的图像有较好的理解能力。权利要求书3页说明书16页附图2页 CN 115359563 A 2022.11.18 CN 115359563 A 1.多人行为识别方法，其特征在于，包括：获取检测区域内的图像数据；对图像数据进行切帧处理，以得到多帧静态图片；将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。 2.根据权利要求1所述的多人行为识别方法，其特征在于，所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果，包括：将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像；将带有id索引的不同人物图像输入至关键点检测模型进行处理，以得到关键点热力图；将带有id索引的人物图像输入至光流模型中进行处理，以得到光流特征图；将关键点热力图和光流特征图输入至视频分类模型中进行处理，以得到人体行为识别结果。 3.根据权利要求2所述的多人行为识别方法，其特征在于，所述将带有id索引的不同人物图像输入至关键点检测模型进行处理，以得到关键点热力图，包括：将带有id索引的不同人物图像输入到多个串联的ExtrackBlock中进行处理，以得到人物特征；将人物特征进行输入到Refi neBlock进行处理，以得到关键点热力图。 4.根据权利要求3所述的多人行为识别方法，其特征在于，所述将带有id索引的不同人物图像输入到多个串联的Ext rackBlock中进行处理，以得到人物特征，包括：将带有id索引的不同人物图像分别进行深度可分离卷积和空间可分离卷积处理，以得到深度卷积特征和空间卷积特征；将深度卷积特征和空间卷积特征进行相加处理，以得到相加结果特征；将相加结果特征分别通过第一卷积、第二卷积、第三卷积和第四卷积进行处理，以得到第一卷积特征、第二卷积特征、第三卷积特征和第四卷积特征；将第一卷积特征、第二卷积特征、第三卷积特征和第四卷积特征分别输入到4个注意力机制分支中进行处理，以分别得到第一注意力分支特征、第二注意力分支特征、第三注意力分支特征和第四注意力分支特征；将第一注意力分支特征、第二注意力分支特征、第三注意力分支特征和第四注意力分支特征进行co ncat处理，以得到结合特征；将结合特征与空间卷积特征进行合并，以得到人物特征。 5.根据权利要求3所述的多人行为识别方法，其特征在于，所述将人物特征进行输入到 RefineBlock进行处理，以得到关键点热力图，包括：将人物特征通过可变形卷积处理，以得到可变形卷积特征；将可变形卷积特征输入至SCSE中进行处理，以得到注意力权重特征；将可变形卷积特征输入到混合深度卷积网络并连接sigmoid层进行处理，以得到注意力特征图；将注意力权重特征与注意力特征图进行相乘处理后得到的结果与可变形卷积特征进权　利　要　求　书 1/3 页 2 CN 115359563 A 2行相加处理，以得到输出特征；将输出特征通过双线性插值放大到原始尺寸，以得到关键点热力图。 6.根据权利要求2所述的多人行为识别方法，其特征在于，所述将带有id索引的人物图像输入至光流模型中进行处理，以得到光流特征图，包括：将前后两帧带有id索引的人物图像输入到残差卷积进行处理，以得到第一残差卷积特征和第二残差卷积特征；将第一残差卷积特征和第二残差卷积特征分别输入到深度可分离卷积网络和空间可分离卷积网络进行处理，以得到第一深度可分离卷积特征、第一空间可分离卷积特征、第二深度可分离卷积特征、第二空间可分离卷积特征；将第一深度可分离卷积特征和第一空间可分离卷积特征进行concat处理，以得到第一结合特征；将第二深度可分离卷积特征和第二空间可分离卷积特征进行concat处理，以得到第二结合特征；将第一结合特征、第二结合特征进行相乘处理后的结果经过sigmoid激活函数处理，以得到激活函数特征；将第一残差卷积特征进行卷积处理，以得到卷积处理特征；将卷积处理特征与激活函数特征进行co ncat，以得到合并特征；将合并特征输入到卷积块中进行处理，以得到卷积块特征；对激活函数特征进行空洞卷积上采样处理，以得到空洞卷积上采样特征；对合并特征进行反卷积上采样处理，以得到反卷积上采样特征；对卷积块特征进行反池化上采样处理，以得到反池化上采样特征；将空洞卷积上采样特征、反卷积上采样特征、反池化上采样特征的值进行相加处理，以得到第一相加处理结果特征；将前后两帧带有id 索引的人物图像进行 co n ca t处理后再分别输入到 transformerEncoder和可变形卷积进行处理，以得到第一处理特征和第二处理特征；将第一处理特征进行resize处理后得到的结果与第二处理特征进行concat处理，以得到组合特征；将组合特征分别输入到两个卷积块中进行处理，以得到第三处理特征和第四处理特征；将第三处理特征和第四处理特征分别通过上采样处理，并将二者上采样处理得到的结果进行相加处理，以得到第二相加处理结果特征；将第一相加处理结果特征和第二相加处理结果特征进行concat处理，以得到中间结果特征；将中间结果特征分别输入到两个卷积进行处理，得到光流特征图。 7.根据权利要求2所述的多人行为识别方法，其特征在于，所述将关键点热力图和光流特征图输入至视频分类模型中进行处理，以得到人体行为识别结果，包括：将关键点热力图中的每个通道上的高斯热力图的关键点映射到单通道图上，以得到单通道高斯热力图；将光流特征图进行比例缩放到与单通道高斯热力图一致的尺寸，并与之进行concat合权　利　要　求　书 2/3 页 3 CN 115359563 A 3

专利 多人行为识别方法、装置、计算机设备及存储介质

专利多人行为识别方法、装置、计算机设备及存储介质