专利基于时序空间特征的实时桌面手势理解方法、系统、设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211024304.2 (22)申请日 2022.08.24 (71)申请人中国科学院自动化研究所地址 100190 北京市海淀区中关村东路95 号 (72)发明人杨明浩　时弘　 (74)专利代理机构北京市恒有知识产权代理事务所(普通合伙) 11576 专利代理师郭文浩　尹文会 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/28(2022.01)G06V 10/26(2022.01) (54)发明名称基于时序空间特征的实时桌面手势理解方法、系统、设备 (57)摘要本发明属于计算机视觉领域，具体涉及一种基于时序空间特征的实时桌面手势理解方法、系统、设备，旨在解决解决现有的桌面手势理解方法识别手势精度较差的问题。本方法包括：实时获取待分类识别的桌面手势RGB图像，作为输入图像；将输入图像从RGB空间转换到HSV空间，根据像素点的深度值对输入图像中的手势区域进行分割，分割后进行二值化处理，得到手势二值图像；融合连续n帧输入图像中的手势二值图像，并采用指数衰减模型模拟连续帧手势的衰减过程，构造包含时空特征的时序特征图像；将包含时空特征的时序特征图像输入预构建的手势分类模型，得到输入图像对应的手势类别识别结果。本发明提升了手势识别精度。权利要求书3页说明书9页附图4页 CN 115294659 A 2022.11.04 CN 115294659 A 1.一种基于时序空间特征的实时桌面手势理解方法，其特征在于，该方法包括以下步骤： S100，实时获取待分类识别的桌面手势RGB图像，作为输入图像； S200，将所述输入图像从RGB空间转换到HSV空间；在HSV空间中，根据像素点的深度值对所述输入图像中的手势区域进行分割，分割后进行二值化处理，得到手势二值图像； S300，融合连续n帧输入图像中的手势二值图像，并采用指数衰减模型模拟连续帧手势的衰减过程，构造包含时空特征的时序特征图像； S400，将所述包含时空特征的时序特征图像输入预构建的手势分类模型，得到所述输入图像对应的手势类别识别结果；所述手势分类模型基于包含DarkNet的目标检测网络构建。 2.根据权利要求1所述的基于时序空间特征的实时桌面手势理解方法，其特征在于，将所述输入图像从RGB空间转换到 HSV空间，其方法为：通过预构建的肤色模型将所述输入图像从RGB空间转换到 HSV空间： V＝max(R， G， B) 其中， 3.根据权利要求1所述的基于时序空间特征的实时桌面手势理解方法，其特征在于，融合连续n帧输入图像中的手势二值图像，并采用指数衰减模型模拟连续帧手势的衰减过程，构造包含时空特征的时序特征图像，其方法为： S301，在时域空间内，根据前n ‑1帧输入图像距离当前帧的时间由近及远衰减各手势二值图像的权重； S302，基于衰减后的权重，将前n ‑1帧手势二值图像在当前帧手势二值图像的背景区域加权融合： S3021，从要融合的n帧手势二值图像中选取权值最高的手势二值图像作为待融合的图像M，然后在剩余图像中选取权值最高的手势二值图像作为M1； S3022，将M与M1进行融合，并把融合后的图像替换原来的待融合的图像M； S3023，在剩余的手势二值图像中选取权值最大的手势二值图像作为新的M1，然后跳转 S3022，直至融合完所有手势二值图像，得到包含融合连续n 帧手势信息时空特征的时序特权　利　要　求　书 1/3 页 2 CN 115294659 A 2征图像。 4.根据权利要求3所述的基于时序空间特征的实时桌面手势理解方法，其特征在于，根据前n‑1帧输入图像距离当前帧的时间由近及远衰减各手势二值图像的权重，其方法为： wx＝e‑β x(x≥0) 其中， wx表示距离当前帧前面第x帧的权重， β 表示设定的衰减值。 5.根据权利要求3所述的基于时序空间特征的实时桌面手势理解方法，其特征在于， M 与M1在点P＝(x， y)处的融合方法为：其中， M(P)表示待融合的图像M中点P的像素值， M1(P)表示M1中点P的像素值。 6.根据权利要求1所述的基于时序空间特征的实时桌面手势理解方法，其特征在于，所述手势分类模型基于包含Dar kNet的目标检测网络构建后，通过TensorRT进行重构和优化，重构和优化方法为：通过TensorRT结构将所述包含DarkNet的目标检测网络中的conv层、 B N层、 Relu层三个层融合为一个层，融合处理后的包含DarkNet的目标检测网络作为最终得到的手势分类模型。 7.根据权利要求1所述的基于时序空间特征的实时桌面手势理解方法，其特征在于，所述手势分类模型对应的损失函数L ossWIOU为： B＝p2(b， bgt)/c2 C＝α v 其中， LossIOU为传统的基于IOU的计算得到的Loss值， b和bgt表示预测框和真实框， ∩ (b， bgt)表示b和bgt的相交部分的面积大小， ∪(b， bgt)表示b和bgt的相并的面积大小， p2(b， bgt)代表b和bgt中心之间的欧氏距离， c代表b和 bgt的八个顶点间的最大距离， α 是权重函数， v用来度量长宽比的相似性，其计算公式如下：其中， w、 h和wgt、 hgt分别代表预测框的宽高和真实框的宽高。 8.一种基于时序空间特征的实时桌面手势理解系统，其特征在于，该系统包括：图像获取模块、二值化处理模块、图像融合模块、手势识别模块；所述图像获取模块，配置为实时获取待分类识别的桌面手势RGB图像，作为输入图像；所述二值化处理模块，配置为将所述输入图像从RGB空间转换到HSV空间；在HSV空间中，根据像素点的深度值对所述输入图像中的手势区域进行分割，分割后进行二值化处理，得到手势二值图像；权　利　要　求　书 2/3 页 3 CN 115294659 A 3

专利 基于时序空间特征的实时桌面手势理解方法、系统、设备

专利基于时序空间特征的实时桌面手势理解方法、系统、设备