专利手势识别方法、模型构建方法、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210957515.5 (22)申请日 2022.08.10 (71)申请人科大讯飞股份有限公司地址 230000 安徽省合肥市高新开发区望江西路666号 (72)发明人盛典　殷保才　林垠　沈锦瑞　 (74)专利代理机构深圳市力道知识产权代理事务所(普通合伙) 44507 专利代理师温朝晖 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/80(2022.01) G06V 10/46(2022.01) G06V 10/82(2022.01) (54)发明名称手势识别方法、模型构建方法、设备及存储介质 (57)摘要本申请提供一种手势识别方法、模型构建方法、设备及存储介质，该识别方法包括：将待识别图像输入至预先构建好的手势识别模型，得到第一识别结果；手势识别模型中，第一识别模型包括第一特征提取模块、第二特征提取模块、特征融合模块和第一识别层，第一特征提取模块逐层提取待识别图像的图像特征，得到浅层特征；特征融合模块根据浅层特征，确定用户手势的位置特征，将浅层特征与位置特征融合并输入至第二特征提取模块；第二特征提取模块用于特征提取；第一识别层对第二特征提取模块提取的图像特征进行识别，得到第一识别结果。本申请能够将待识别图像的关键点特征与浅层特征融合，加强了手部区域特征，从而使识别结果更加准确。权利要求书3页说明书11页附图4页 CN 115457650 A 2022.12.09 CN 115457650 A 1.一种手势识别方法，其特征在于，包括：获取包含用户手势的待识别图像，将所述待识别图像输入至预先构建好的手势识别模型，得到第一识别结果；其中，所述手势识别模型包括第一识别模型，所述第一识别模型包括第一特征提取模块、第二特征提取模块、特征融合模块和第一识别层；所述第一特征提取模块用于逐层提取所述待识别图像的图像特征，得到浅层特征；所述特征融合模块，用于根据所述浅层特征，确定用户手势的位置特征，将所述浅层特征与所述位置特征融合并输入至第二特征提取模块；所述第二特征提取模块用于特征提取；所述第一识别层用于对所述第二特征提取模块提取的图像特征进行识别，得到所述第一识别结果。 2.根据权利要求1所述的手势识别方法，其特征在于，所述第一特征提取模块、所述第二特征提取模块包括一个或者多个依次相连的子特征提取模块；其中，所述子特征提取模块包括Backbone网络的Stage模块，所述Stage模块至少包括一个下采样模块和若干残差模块，及若干TS M模块，所述下采样模块、所述若干残差模块、若干所述TSM模块依次相连。 3.根据权利要求1所述的手势识别方法，其特征在于，所述特征融合模块包括SimDR模块和融合模块，所述SimDR模块用于从所述浅层特征中提取用户手势的位置特征，所述融合模块用于将所述浅层特征与所述位置特征融合。 4.根据权利要求1所述的手势识别方法，其特征在于，所述将所述待识别图像输入至预先构建好的手势识别模型之前，所述方法还包括：获取多个所述待识别图像的图像类型；根据所述图像类型确定模态数量，并复制所述第一识别模型，使所述第一识别模型数量与模态数量相等。 5.根据权利要求4所述的手势识别方法，其特征在于，各个所述第一识别模型的模型结构相同，且模型参数共享。 6.根据权利要求4所述的手势识别方法，其特征在于，所述获取包含用户手势的待识别图像，将所述待识别图像输入至预先构建好的手势识别模型，包括：获取多个包含用户手势的待识别图像，多个所述待识别图像的模态不同；依次将同种模态的所述待识别图像输入至同一个所述第一识别模型进行识别，得到各个所述第一识别模型输出的初始识别结果；其中，各个所述第一识别模型中输入一种模态的所述待识别图像；以及根据多个所述初始识别结果确定所述用户手势的识别结果。 7.根据权利要求1 ‑6任一项所述的手势识别方法，其特征在于，所述手势识别模型还包括第二识别模型；所述方法包括：将包含目标对象视频的所有视频帧作为待识别图像，输入至所述第二识别模型进行识别，得到第二识别结果；其中，所述第二识别模型包括第一特征提取模块、第三特征提取模块、特征增强模块和第二识别层；所述特征增强模块用于根据所述第一特征提取模块的浅层特征中的用户手势的位置特征进行增强，将增强后的所述浅层特征输入至所述第三特征提取模块；所述第三特征提取模块用于特征提取；所述第二识别层用于对所述第三特征提取模块提取的图像特权　利　要　求　书 1/3 页 2 CN 115457650 A 2征进行识别，得到所述第二识别结果。 8.根据权利要求7所述的手势识别方法，其特征在于，所述第一识别模型和所述第二识别模型共用第一特征提取模块。 9.根据权利要求7所述的手势识别方法，其特征在于，在所述将所述待识别图像输入至预先构建好的手势识别模型的步骤之前，所述方法还包括：获取用户选择的识别模式，根据所述识别模式确定对应的手势识别模型；其中，所述识别模式包括第一识别模式、第二识别模式和第三识别模式，所述第一识别模式对应的手势识别模型包括第一识别模型或者第二识别模型，所述第二识别模式对应的手势识别模型包括第一识别模型和第二识别模型，所述第三识别模式手势识别模型包括多个不同模态的第一识别模型。 10.一种手势识别模型的构建方法，其特征在于，所述构建方法包括：获取包含用户手势的图像样本；将所述图像样本，输入手势识别模型中，以训练所述手势识别模型；其中，所述手势识别模型包括第一识别模型，所述第一识别模型包括第一特征提取模块、第二特征提取模块、特征融合模块和第一识别层；所述第一特征提取模块用于逐层提取所述图像样本的图像特征，得到浅层特征；所述特征融合模块，用于根据所述浅层特征，确定用户手势的位置特征，将所述浅层特征与所述位置特征融合并输入至第二特征提取模块；述第二特征提取模块用于特征提取；所述第一识别层用于对所述第二特征提取模块提取的图像特征进行识别，得到所述手势预测结果，以训练得到所述手势识别模型。 11.根据权利要求10所述的构建方法，其特征在于，所述手势识别模型包括第一识别模型和第二识别模型；所述图像样本包括不同模态的子图像样本；所述方法还包括：将RGB模态对应的子图像样本输入至所述第二识别模型，以获取所述第二识别模型预测结果的第一损失函数；将所述子图像样本，输入至与所述子图像样本的模态相对应的第一识别模型，以得到每个所述第一识别模型预测结果的第二损失函数；其中，所述第一识别模型的数量与所述第二识别模型相同；根据所述第二识别模型的损失函数、所述第一识别模型的损失函数，获取相邻两个预测结果的第三损失函数；通过所述第一损失函数、所述第二损失函数、所述第三损失函数，更新所述手势识别模型，并保留一个第一识别模型。 12.根据权利要求11所述的构建方法，其特征在于，所述获取包含用户手势的图像样本的步骤之后，所述方法还包括：根据不同模态的所述图像样本的数量，复制所述第一识别模型，以使所述第一识别模型的数量与所述不同模态的图像样本的数量相等，且所述第一识别模型之间的参数共享。 13.一种计算机设备，其特征在于，所述计算机设备包括：存储器和处理器；其中，所述存储器与所述处理器连接，用于存储程序；所述处理器用于通过运行所述存储器中存储的程序，实现如权利要求1 ‑9任一项所述的手势识别方法的步骤。权　利　要　求　书 2/3 页 3 CN 115457650 A 3

专利 手势识别方法、模型构建方法、设备及存储介质

专利手势识别方法、模型构建方法、设备及存储介质