专利基于肌肉骨骼模型的人体步态仿真系统、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211057078.8 (22)申请日 2022.08.30 (71)申请人苏州科技大学地址 215000 江苏省苏州市高新区科锐路1 号 (72)发明人陈建平　傅启明　李昂　 (74)专利代理机构北京科家知识产权代理事务所(普通合伙) 11427 专利代理师曹振中 (51)Int.Cl. G06F 30/27(2020.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/77(2022.01) G06V 10/82(2022.01)G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于肌肉骨骼模型的人体步态仿真系统、装置及存储介质 (57)摘要本发明公开了基于肌肉骨骼模型的人体步态仿真系统、装置及存储介质，首先，建立好下肢骨骼肌肉模型之后，进行强化环境初始化。然后，将环境的初始状态作为不同编码器的输入进行特征提取。然后，对得到的特征进行特征融合。同时，将融合特征作为解码器的输入，最终重构出一个低维状态，然后Actor网络根据此观察选择一个动作，随后， Critic网络评估对应状态动作对的值，此外，最终的动作取决于两个Critic网络对动作值的比较结果，最后，环境呈现给强化学习agent一个新的状态，该方法避免了使用传统方法使用大量专家数据进行模型驱动所带来的人力损耗，同时，该方法仅需按照下肢肌肉骨骼模型搭建强化学习环境，便可进行步态模拟。权利要求书2页说明书6页附图1页 CN 115438580 A 2022.12.06 CN 115438580 A 1.基于肌肉骨骼模型的人体步态仿真系统，其特征在于：步骤一：建立下肢骨骼肌肉模型，进行强化环境初始化；步骤二：将环境的初始状态E作为不同编码器的输入进行特征提取，得到不同的模拟环境的特征fi， i指的是不同特征的序号；步骤三：对得到的特征进行特征融合。同时，将融合特征F作为解码器的输入，最终重构出一个低维状态步骤四：将编码器的重构输出作为SD3算法中RL代理的观察，建立双Actor网络和 Critic网络， Actor网络根据此观察选择一个动作ai， i表示不同Actor网络对应的动作序号， Critic网络评估对应状态动作的值即通过对两个Critic网络对动作值的比较结果，得到最小动作值，并得到最终的目标值；步骤五：将当前状态E作为新的状态E进行强化。 2.如权利要求1所述的基于肌肉骨骼模型的人体步态仿真系统，其特征在于：所述编码器包括高层神经网络的第一自编码器和低层神经网络的第二自编码器。 3.如权利要求2所述的基于肌肉骨骼模型的人体步态仿真系统，其特征在于：第一自编码器和第二自编码器获取的特征融合方法为保持维数不变的情况下，按元素的方式添加每个特征的信息。 4.如权利要求2所述的基于肌肉骨骼模型的人体步态仿真系统，其特征在于：其中步骤四中得到目标值方法为：通过不同的Actor网络和Critic网络来选择备选的动作，然后通过计算和比较两个批评网络评价的对应动作的状态 ‑动作对值，得到最小动作值：然后，通过重要性抽样，由softmax算子在期望中诱导出最小Q值，并对得到的最小的Q 值使用softmax函数进行处理，具体如下：其中， β 为Softmax算子的参数，的含义是重要抽样高斯分布的概率密度函数。是带有额外噪声的动作，用于探索，这些噪声来自高斯分布最后得到Softmax Q值，计算出目标值: y＝r+γ(1 ‑d)softmaxβ(Q(s′,·； θ‑)). (3)。 5.如权利要求2所述的基于肌肉骨骼模型的人体步态仿真系统，其特征在于：步骤一中具体为：建立MDP模型，并构建状态，动作及立即奖赏函数； a)状态，用s表示。深度强化学习agent的观察包括两部分:目标速度映射T和身体状态 B； b)动作，用a表示。肌肉骨骼模型中2 2块肌肉的肌肉激活设定为动作空间[0,1]22；权　利　要　求　书 1/2 页 2 CN 115438580 A 2c)奖赏函数，用r表示。将步态模拟中模型的存活时间Malive和步态模拟所模拟的步数 Mstep作为奖赏函数。 6.如权利要求5所述的基于肌肉骨骼模型的人体步态仿真系统，其特征在于：步骤三和步骤四中具体为：所述Critic网络包括构建的相同的两个全连接网络Q作为当前Critic网络，以及两个相同的Q*作为目标Critic网络， Actor 网络以及目标Actor网络以相同策略构建，所构建的 Critic神经网络包括一个输入层，两个全连接层和一个输出层。输出层输出在状态s下所有 Actor网络所输出的不同动作的Q值。在t 时刻，网络获取状态st,根据比较两个Critic网络所输出的较大Q 值所对应的动作at,并获取奖赏rt+1；根据自编码网络和S D3得出动作at，并进行模型训练，具体为； 1)构建并初始化记忆回放单元D中，存储训练样本； 2)初始化当前Q网络及目标Q网络的网络参数； 3)初始化当前Actor网络和目标Actor网络的网络参数； 4)观察当前肌肉骨骼状态E； 5)使用编码器encoder1和encoder 2从状态st提取特征f1和f2； 6)融合特征f1和f2得到特征F； 7)根据特征F输入到解码器，得到重构后的状态 8)根据重构状态得到动作at； 9)执行动作at并且转移到下一个状态并重构得到 10)得到奖赏rt； 11)将存入记忆回放单元D中； 12)从经验池中随机选择一个样本； 13)更新Actor网络参数其中， Q(s,a|θQ)与 μ(s|θμ)分别为在线Cirtic网络与在线Actor网络， θQ与 θμ分别指这两个网络的网络参数； 14)更新Critic网络参数 L＝1/N∑i(yi‑Q(si,ai| θQ))2；其中， yi为强化学习中TD目标值，具体定义为yi＝r+γQ(s', μ(s'|θμ′)|θQ′)， γ为强化学习折扣因子； 15)将当前Q 值网络参数复制到目标Q 值网络参数中。 7.一种计算机装置，其特征在于：包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至6中任意一项所述的基于肌肉骨骼模型的人体步态仿真系统对应的操作。 8.一种计算机存储介质，其特征在于：所述计算机存储介质中存储有至少一个可执行指令，所述可执行指令使处理器执行如权利要求 1至6中任意一项所述的基于肌肉骨骼模型的人体步态仿真系统。权　利　要　求　书 2/2 页 3 CN 115438580 A 3

专利 基于肌肉骨骼模型的人体步态仿真系统、装置及存储介质

专利基于肌肉骨骼模型的人体步态仿真系统、装置及存储介质