专利基于深度学习的无察觉式脑卒中患者手部动作识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210809560.6 (22)申请日 2022.07.10 (71)申请人复旦大学地址 200433 上海市杨浦区邯郸路2 20号 (72)发明人付淇　陈炜　孟龙　秦海波　张安静　陈晨　 (74)专利代理机构上海正旦专利代理有限公司 31200 专利代理师陆飞　陆尤 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于深度学习的无察觉式脑卒中患者手部动作识别方法 (57)摘要本发明属于健康检测技术领域，具体为一种基于深度学习的无察觉式脑卒中患者手部动作识别方法。本发明方法包括：患者手部动作的采集，手部动作设计为三大类17小类，使用非接触式Kinect传感器采集患者手部动作数据；对采集的数据进行预处理，用于模型训练和预测；采用三种深度学习模型TSN、 I3D和Slowfast进行训练和预测，最后将三种模型预测结果进行融合，得到最终预测结果。本发明为脑卒中上肢精细动作活动识别提供了有效的解决方案，不再需要复杂繁琐的可穿戴式设备采集电信号，而是通过基于视觉的方式，更加便捷地识别脑卒中患者上肢活动，便于评估脑卒中患者恢复水平。权利要求书2页说明书8页附图2页 CN 115311737 A 2022.11.08 CN 115311737 A 1.一种基于深度学习的无察觉式脑卒中患者手部动作识别方法，其特征在于，具体步骤如下：（1）数据采集数据采集的对象是式脑卒中患者手部动作，包括手腕动作、手指动作、握拳摊掌三大类，共17种动作；一个手势分为两组，一组做三次，每次动作持续5秒钟；所述17种手势动具体如下：（0）手腕朝向胸腔弯曲，（1）手腕远离胸腔弯曲，（2）手腕向上弯曲，（3）手腕向下弯曲，（4）手腕逆时针旋转，（5）手腕顺时针旋转，（6）握拳，（7）五指伸直，（8）大拇指食指对捏，（9）中指无名指小拇指伸直，（10）食指中指无名指伸直，（11）仅食指伸直，（12）伸出大拇指，（13）伸出大拇指食指，（14）伸出食指中指，（15）伸出除大拇指外其他四指，（16）大拇指食指中指三指对捏；其中，第（4）、（5）种，是患者偏瘫为右手，若患者偏瘫侧为左手，则旋转方向相反；（2）数据预处理数据预处理包括数据分割、数据清洗两个过程；数据分割，是将采集到的数据按照模型的输入要求进行细分，以便于后续数据清洗、进行打标签以及模型的训练；将采集到的长视频数据先按照动作一次动作为一个视频子集分割，每次动作分为三个状态，起始状态、动作持续状态、结束状态；数据清洗，是将采集过程中有损坏的数据，以及被试患者在数据采集过程中由于认知、听力、不能正确理解指令造成的错误、失误的动作的数据，清洗剔除；（3）采用三种深度学习模型，并将三种模型进行融合采用视频理解深度学习算法，选取三种视频理解领域模型进行训练与测试，三种深度学习模型分别为：（1） TSN，采用视频流与光流两种输入流处理时序问题；所谓光流，是由物体或照相机的运动引起的两个连续帧之间图像物体的视运动的模式；它是2D向量场，其中每个向量都是位移向量，表示像素点从第一帧到第二帧的运动； TSN将视频分为多段，分别输入特征提取网络中；其中，将视频小段选取一帧做空间卷积，小段中每帧提取光流做时间卷积，然后得到时间和空间维度的语义信息，再经过类别分数融合得到最终的结果；（2） I3D，采用单一视频输入， 3D卷积作为网络基本模块的方式，解决2D卷积预训练权重无法很好地扩展到3D卷积上的问题，并提供Kinet ics数据集与众多在该大型数据集上预训练的权重； I3D中，用3D卷积代替图像处理中的2D卷积来处理时空特征，并且将预训练权重引入3D 卷积中； I3D在所有卷积与全连接层之后加入BN层，且增加池化步长； I3D直接将2D卷积 N×N 的卷积核变成 N×N×N；对于预训练权重，首先把2D卷积核在时间维度上复制 N份，然后除以时间维度的维度 N，使扩展到3D卷积之后，每一层都仍然获取到类似大小的输出相应；对于池化窗口、步长，由特定的视频帧率与输入分辨率来确定如何扩张；（3） Slowfast，为一种双路径视频识别模型；该模型模仿灵长类视觉中的视网膜神经运作原理，一条路径专注于处理低帧速率下的类别语义，包括颜色、纹理和目标，捕获图像或几个稀疏帧提供的语义信息；而另一条路径则寻找在以较高帧速率显示的视频中更容易识别的快速变化的运动，包括鼓掌、挥手、摇头、走路或跳跃，捕获快速变化的动作；通过比较三种不同深度学习算法在手部精细活动识别的性能，进一步采用软投票法对权　利　要　求　书 1/2 页 2 CN 115311737 A 2三种模型进行融合；具体方式为：得到包含属于特定目标类概率值的预测结果，将三个模型结果进行加权平均，概率值最大的类即为预测结果。 2.根据权利要求1所述无察觉式脑卒中患者手部动作识别方法，其特征在于，步骤（1）中，采集数据使用非接触式Kinect传感器；通过USB与终端电脑连接，手动设置每个传感器流；采集到的数据通过USB 传输储存在外部设备中，以便异地传输，用于行为活动识别任务。 3.根据权利要求1所述无察觉式脑卒中患者手部动作识别方法，其特征在于，步骤（1）中，共采集 1610个有效视频子集，即最终数据集包含1610个动作，将数据集按照动作标签标记后，参与后续训练。 4.根据权利要求1所述无察觉式脑卒中患者手部动作识别方法，其特征在于，步骤（2）中，对于TSN，采用预训练权重与数据增强相结合的方法，对TSN的骨架网络替换成轻量级网络ResNet5 0，以减轻模型的参数量，并且保持相当的性能。 5.根据权利要求1所述无察觉式脑卒中患者手部动作识别方法，其特征在于，采用传统视频理解任务中的Top1_accuracy、 Top_5accuracy、 mean_accuracy来衡量模型的分类结果， Top1_acc指预测标签将最后输出的概率向量里面最大的那一个作为预测结果，如果预测结果中概率最大的那个分类正确，则预测正确，即正确预测样本/ （正确预测样本+错误预测样本）； Top5_acc是指预测结果的概率向量最大的前五名中，只要出现了正确概率即为预测正确，否则预测错误； Mean_acc是指总平均准确率，也就是所有类的预测准确率的平均值。 6.根据权利要求1所述无察觉式脑卒中患者手部动作识别方法，其特征在于，在模型训练中，采用6折交叉验证策略多次训练，最终取测试均值作为判断依据。权　利　要　求　书 2/2 页 3 CN 115311737 A 3

专利 基于深度学习的无察觉式脑卒中患者手部动作识别方法

专利基于深度学习的无察觉式脑卒中患者手部动作识别方法