全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211024304.2 (22)申请日 2022.08.24 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 杨明浩 时弘  (74)专利代理 机构 北京市恒有知识产权代理事 务所(普通 合伙) 11576 专利代理师 郭文浩 尹文会 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/28(2022.01)G06V 10/26(2022.01) (54)发明名称 基于时序空间特征的实时桌面手势理解方 法、 系统、 设备 (57)摘要 本发明属于计算机视觉领域, 具体涉及一种 基于时序空间特征的实时桌面手势理解方法、 系 统、 设备, 旨在解决解决现有的桌面手势理解方 法识别手势精度较差的问题。 本方法包括: 实时 获取待分类识别的桌面手势RGB图像, 作为输入 图像; 将输入图像从RGB空间转换到HSV空间, 根 据像素点的深度值对输入图像中的手势区域进 行分割, 分割后进行二值化处理, 得到手势二值 图像; 融合连续n帧输入图像中的手势二值图像, 并采用指数衰减模型模拟连续帧手势的衰减过 程, 构造包含时空特征的时序特征图像; 将包含 时空特征的时序特征图像输入预构建的手势分 类模型, 得到输入图像对应的手势类别识别结 果。 本发明提升 了手势识别精度。 权利要求书3页 说明书9页 附图4页 CN 115294659 A 2022.11.04 CN 115294659 A 1.一种基于时序空间特征的实时桌面手势理解方法, 其特征在于, 该方法包括以下步 骤: S100, 实时获取待分类识别的桌 面手势RGB图像, 作为输入图像; S200, 将所述输入图像从RGB空间转换到HSV空间; 在HSV空间中, 根据像素点的深度值 对所述输入图像中的手势区域进行分割, 分割后进行二 值化处理, 得到手势二 值图像; S300, 融合连续n帧输入图像 中的手势二值图像, 并采用指数衰减模型模拟连续帧手势 的衰减过程, 构造包 含时空特 征的时序特 征图像; S400, 将所述包含时空特征的时序特征图像输入预构建的手势分类模型, 得到所述输 入图像对应的手势类别识别 结果; 所述手势分类模型基于包含DarkNet的目标检测网络构 建。 2.根据权利要求1所述的基于时序空间特征的实时桌面手势 理解方法, 其特征在于, 将 所述输入图像从RGB空间转换到 HSV空间, 其方法为: 通过预构建的肤色模型将所述输入图像从RGB空间转换到 HSV空间: V=max(R, G, B) 其中, 3.根据权利要求1所述的基于时序空间特征的实时桌面手势 理解方法, 其特征在于, 融 合连续n帧输入图像中的手势 二值图像, 并采用指数衰减模型模拟连续帧手势的衰减过程, 构造包含时空特 征的时序特 征图像, 其方法为: S301, 在时域空间内, 根据前n ‑1帧输入图像距离当前帧的时间由近及远衰减各手势二 值图像的权 重; S302, 基于衰减后的权重, 将前n ‑1帧手势二值图像在当前帧手势二值图像的背景 区域 加权融合: S3021, 从要融合的n帧手势二值图像中选取权值最高的手势二值图像作为待融合的图 像M, 然后在剩余图像中选取权值 最高的手势二 值图像作为M1; S3022, 将M与M1进行融合, 并把融合后的图像替换原来的待融合的图像M; S3023, 在剩余的手势二值图像中选取权值最大的手势二值图像作 为新的M1, 然后 跳转 S3022, 直至融合完所有手势二值图像, 得到包含融合连续n 帧手势信息时空特征的时序特权 利 要 求 书 1/3 页 2 CN 115294659 A 2征图像。 4.根据权利要求3所述的基于时序空间特征的实时桌面手势 理解方法, 其特征在于, 根 据前n‑1帧输入图像距离当前帧的时间由近及远衰减各手势二 值图像的权 重, 其方法为: wx=e‑β x(x≥0) 其中, wx表示距离当前帧前面第x帧的权 重, β 表示设定的衰减值。 5.根据权利要求3所述的基于时序空间特征的实时桌面手势理解方法, 其特征在于, M 与M1在点P=(x, y)处的融合方法为: 其中, M(P)表示待融合的图像M中点P的像素值, M1(P)表示M1中点P的像素值。 6.根据权利要求1所述的基于时序空间特征的实时桌面手势 理解方法, 其特征在于, 所 述手势分类模型基于包含Dar kNet的目标检测网络构建后, 通过TensorRT进行重构和优化, 重构和优化方法为: 通过TensorRT结构将所述包含DarkNet的目标检测网络中 的conv层、 B N层、 Relu层 三个 层融合为一个层, 融合处理后的包含DarkNet的目标检测网络作为最终得到的手势分类模 型。 7.根据权利要求1所述的基于时序空间特征的实时桌面手势 理解方法, 其特征在于, 所 述手势分类模型对应的损失函数L ossWIOU为: B=p2(b, bgt)/c2 C=α v 其中, LossIOU为传统的基于IOU的计算得到的Loss值, b和bgt表示预测框和真实框, ∩ (b, bgt)表示b和bgt的相交部分的面积大小, ∪(b, bgt)表示b和bgt的相并的面积大小, p2(b, bgt)代表b和bgt中心之间的欧氏距离, c代表b和 bgt的八个顶 点间的最大距离, α 是权重函数, v用来度量长 宽比的相似性, 其计算公式如下: 其中, w、 h和wgt、 hgt分别代表预测框的宽高和真实框的宽高。 8.一种基于时序空间特征的实时桌面手势 理解系统, 其特征在于, 该系统包括: 图像获 取模块、 二 值化处理模块、 图像融合模块、 手势 识别模块; 所述图像获取模块, 配置为实时获取待分类识别的桌 面手势RGB图像, 作为输入图像; 所述二值化处理模块, 配置为将所述输入图像从RGB空间转换到HSV空间; 在HSV空间 中, 根据像素点的深度值对 所述输入图像中的手势区域进行分割, 分割后进行二值化处理, 得到手势二 值图像;权 利 要 求 书 2/3 页 3 CN 115294659 A 3

.PDF文档 专利 基于时序空间特征的实时桌面手势理解方法、系统、设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于时序空间特征的实时桌面手势理解方法、系统、设备 第 1 页 专利 基于时序空间特征的实时桌面手势理解方法、系统、设备 第 2 页 专利 基于时序空间特征的实时桌面手势理解方法、系统、设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:14:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。