专利基于自注意力机制的人体动作识别网络和电子装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211043022.7 (22)申请日 2022.08.29 (71)申请人郑州大学地址 450000 河南省郑州市高新区科学大道100号 (72)发明人高志敏　王沛焘　徐明亮　吕培　姜晓恒　刘起东　郭帅　 (74)专利代理机构广东君龙律师事务所 4 4470 专利代理师金永刚 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/77(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01)G06F 17/16(2006.01) G06F 7/498(2006.01) (54)发明名称基于自注意力机制的人体动作识别网络和电子装置 (57)摘要本发明公开了一种基于自注意力机制的人体动作识别网络和电子装置。该网络包括依次级联的线性处理模块、第一级自注意力处理单元、第二级自注意力处理单元、平均池化处理单元和分类单元；将人体骨架数据序列输入线性处理模块后，得到高维骨架数据序列，然后再经第一级自注意力处理单元后，输出第一级骨架关节点特征序列，再并行分成两个支路，分别输入到第二级自注意力处理单元进行处理，并行输出第二级骨架关节点特征序列和第二级身体部位特征序列，然后分别输入至平均池化处理单元，得到结果特征数据，再经过分类单元进行识别后输出识别结果。该网络采用自注意处理机制，能够有效融合人体关节和身体部位，对人体骨架动作进行高精度的准确识别。权利要求书3页说明书14页附图5页 CN 115205980 A 2022.10.18 CN 115205980 A 1.一种基于自注意力机制的人体动作识别网络,其特征在于，所述网络包括依次级联的线性处理模块、第一级自注意力处理单元、第二级自注意力处理单元、平均池化处理单元和分类单元；将人体骨架数据序列Xin输入线性处理模块后，得到高维骨架数据序列X1，然后再经第一级自注意力处理单元后，输出第一级骨架关节点特征序列X2；所述第一级骨架关节点特征序列X2并行分成两个支路，分别输入到第二级自注意力处理单元进行处理，并行输出第二级骨架关节点特征序列和第二级身体部位特征序列所述第二级骨架关节点特征序列和第二级身体部位特征序列分别输入至平均池化处理单元，得到结果特征数据Xout，再经过分类单元进行识别后输出识别结果。 2.根据权利要求1所述的基于时空局部和全局自注意力的三维人体动作识别网络,其特征在于，所述第一级自注意力处理单元包括级联的第一基础空间自注意力模块和第一局部‑全局时间自注意力模块。 3.根据权利要求2所述的基于时空局部和全局自注意力的三维人体动作识别网络,其特征在于，所述第二级自注意力处理单元包括第一处理支路和第二处理支路，其中，第一处理支路包括级联的关键节点选择模块、第二基础空间自注意力模块、第一节点与部位交叉处理模块和第二局部 ‑全局时间自注意力模块，第二处理支路包括级联的全局身体部位编码模块、第三基础空间自注意力模块、第二节点与部位交叉处理模块和第三局部 ‑全局时间自注意力模块；并且，第二基础空间自注意力模块还输出连接到第二节点与部位交叉处理模块，第三基础空间自注意力模块还输出连接到第一节点与部位交叉处理模块。 4.根据权利要求3所述的基于时空局部和全局自注意力的三维人体动作识别网络,其特征在于，所述第一基础空间自注意力模块包括H1个头的基础自注意力子模块，对于每个头的所述基础自注意力子模块，对进入该子模块的输入端的第一输入数据，先要经过第一位置编码器进行位置编码； H1个头的所述基础自注意力子模块的计算结果均输入到第一线性连接器，进行特征维度的串联后再线性变换，再输出至一个加法器，用于第一次加入第一输入数据；第一次相加的结果再进入到第一FFN计算器进行线性变换，所述第一FFN计算器计算后的结果，第二次与第一输入数据进行相加，第二次相加的结果作为第一基础空间自注意力模块的输出结果；第二、第三基础空间自注意力模块与所述第一基础空间自注意力模块具有相同的构造。 5.根据权利要求4所述的基于时空局部和全局自注意力的三维人体动作识别网络,其特征在于，第一局部 ‑全局时间自注意力模块包括H2个头的时间自注意力子模块，对于每个头的时间自注意力子模块，对进入该子模块的输入端的第二输入数据，先要经过第二位置编码器进行位置编码； H2个头的所述时间自注意力子模块的计算结果均输入到第二线性连接器，进行特征维度的串联后再线性变换；第二线性连接器的输出端还进一步通过加法器，与第二输入数据相加，相加的结果作为第一局部 ‑全局时间自注意力模块的输出结果；第二、第三局部 ‑全局时间自注意力模块与所述第一局部 ‑全局时间自注意力模块具有相同的构造。 6.根据权利要求5所述的基于时空局部和全局自注意力的三维人体动作识别网络,其权　利　要　求　书 1/3 页 2 CN 115205980 A 2特征在于，所述关键节点选择模块对第一级自注意力处理单元输出的第一级骨架关节点特征序列X2，自适应地对该序列中每帧数据中的关键关节点子集进行采样，并丢弃非关键关节点，输出关键关节点序列其中，包括使用一个可训练的投影向量和sigmoid函数， C2表示第一级骨架关节点特征序列 X2中的关节点的维度，预测第一级骨架关节点特征序列 X2的每帧中的关节点信息量得分 N3和T3分别表示第一级骨架关节点特征序列X2对应的每一帧中的关节点数和帧数，则有： S＝sigmo id(X2WP/||WP||)，其中，对于第一级骨架关节点特征序列X2，每个元素Sij，表示该序列中第j帧中第i个关节点的信息得分，对每个帧的所有关节点的分数进行排序，并取得对应于得分最大的前K个关节点： idx＝sort(S,K)， idx 是所选得分最大关节点的索引，进一步得到关键关节点序列： 7.根据权利要求6所述的基于时空局部和全局自注意力的三维人体动作识别网络,其特征在于，所述身体部位编码模块对第一级自注意力处理单元输出的第一级骨架关节点特征序列X2，基于人体骨架的物理结构和先验知识，将所有关节点划分为P个身体部位；将属于同一身体部位的关节点的特征串联起来，然后通过一个共享的线性层，将所有身体部位转换为一个身体全局特征序列 8.根据权利要求7所述的基于时空局部和全局自注意力的三维人体动作识别网络,其特征在于，所述第一节点与部位交叉处理模块用于身体部位到关键关节点的交叉注意力处理，包括H3个头的并行处理的身体部位向关节点交叉处理子模块、用于汇聚连接这些身体部位向关节点交叉处理子模块的第三线性连接器和第二F FN计算器；每个身体部位向关节点交叉处理子模块均有两个数据输入端，分别输入关键关节点序列和身体全局特征序列其中关键关节点序列经过线性变换后分别输出三个支路数据QJ,KJ,VJ，身体全局特征序列经过线性变换后分别输出三个支路数据QP,KP,VP，然后计算得到：其中， d3＝C3/H3， C3为进入到所述身体部位向关节点交叉处理子模块的输入数据的特征维数，注意力矩阵AJP∈RK×P用于对QJ和KP的相关性进行建模，并将身体部位特征聚合到关键关节点上；第三线性连接器用于把H3个头的身体部位向关节点交叉处理子模块的输出结果，沿特征维度串联后再线性变换，然后通过加法器与输入的关键关节点序列相加，之后再输入到第二FFN计算器进行线性变换计算处理；第二FFN计算器计算后的结果，再一次与关键关节点序列进行相加，相加的结果作为第一节点与部位交叉处理模块的输出结果。 9.根据权利要求7所述的基于时空局部和全局自注意力的三维人体动作识别网络,其特征在于，所述第二节点与部位交叉处理模块包括H4个头的并行处理的关节点向身体部位权　利　要　求　书 2/3 页 3 CN 115205980 A 3

专利 基于自注意力机制的人体动作识别网络和电子装置

专利基于自注意力机制的人体动作识别网络和电子装置