全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211057078.8 (22)申请日 2022.08.30 (71)申请人 苏州科技大 学 地址 215000 江苏省苏州市高新区科锐路1 号 (72)发明人 陈建平 傅启明 李昂  (74)专利代理 机构 北京科家知识产权代理事务 所(普通合伙) 11427 专利代理师 曹振中 (51)Int.Cl. G06F 30/27(2020.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/77(2022.01) G06V 10/82(2022.01)G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于肌肉骨骼模 型的人体步态仿真系统、 装 置及存储介质 (57)摘要 本发明公开了基于肌肉骨骼模型的人体步 态仿真系统、 装置及存储介质, 首先, 建立好下肢 骨骼肌肉模型之后, 进行 强化环境初始化。 然后, 将环境的初始状态作为不同编码器的输入进行 特征提取。 然后, 对得到的特征进行特征融合。 同 时, 将融合特征作为解码器的输入, 最终重构出 一个低维状态, 然后Actor网络根据此观察选择 一个动作, 随后, Critic网络评估对应状态动作 对的值, 此外, 最终的动作取决于两个Critic网 络对动作值的比较结果, 最后, 环境呈现给强化 学习agent一个新的状态, 该方法避免了使用传 统方法使用大量专家数据进行模型驱动所带来 的人力损耗, 同时, 该方法仅需按照下肢肌肉骨 骼模型搭建强化学习环境, 便可进行步态模拟。 权利要求书2页 说明书6页 附图1页 CN 115438580 A 2022.12.06 CN 115438580 A 1.基于肌肉骨骼模型的人体步态仿真系统, 其特 征在于: 步骤一: 建立下肢骨骼肌肉模型, 进行强化环境初始化; 步骤二: 将环境的初始状态E作为不同编码器的输入进行特征提取, 得到不同的模拟环 境的特征fi, i指的是不同特 征的序号; 步骤三: 对得到的特征进行特征融合。 同时, 将融合特征F作为解码器的输入, 最终重构 出一个低维状态 步骤四: 将编码器 的重构输出 作为SD3算法中RL代理的观察, 建立双Actor网络和 Critic网络, Actor网络根据此观察选择一个动作ai, i表示不同Actor网络对应的动作序 号, Critic网络评估对应状态动作的值即 通过对两个Critic网络对动作值的 比较结果, 得到最小动作值, 并得到最终的目标值; 步骤五: 将当前状态E作为 新的状态E进行强化。 2.如权利要求1所述的基于肌肉骨骼模型的人体步态仿真系统, 其特征在于: 所述编码 器包括高层神经网络的第一自编码器和低层神经网络的第二自编码器。 3.如权利要求2所述的基于肌肉骨骼模型的人体步态仿真系统, 其特征在于: 第 一自编 码器和第二自编码器获取的特征融合方法为保持维数不变的情况下, 按 元素的方式添加每 个特征的信息 。 4.如权利要求2所述的基于肌肉骨骼模型的人体步态仿真系统, 其特征在于: 其中步骤 四中得到目标值方法为: 通过不同的Actor网络和Critic网络来选择备选的动作, 然后通过计算和比较两个批 评网络评价的对应动作的状态 ‑动作对值, 得到最小动作值: 然后, 通过重要性抽样, 由softmax算子在期望中诱导出最小Q值, 并对得到的最小的Q 值使用softmax函数进行处 理, 具体如下: 其中, β 为Softmax算子的参数, 的含义是重要抽样高斯分布的概率密度函数。 是 带有额外噪声的动作, 用于 探索, 这些噪声来自高斯分布 最后得到Softmax  Q值, 计算 出目标值: y=r+γ(1 ‑d)softmaxβ(Q(s′,·; θ‑)).      (3)。 5.如权利要求2所述的基于 肌肉骨骼模型的人体步态仿真系统, 其特 征在于: 步骤一中具体为: 建立MDP模型, 并构建状态, 动作及立即奖赏 函数; a)状态, 用s表示。 深度强化学习agent的观察包括两部分:目标速度映射T和身体状态 B; b)动作, 用a表示。 肌肉骨骼模型中2 2块肌肉的肌肉激活设定为动作空间[0,1]22;权 利 要 求 书 1/2 页 2 CN 115438580 A 2c)奖赏函数, 用r表示。 将步态模拟中模型的存活时间Malive和步态模拟所模拟的步数 Mstep作为奖赏 函数。 6.如权利要求5所述的基于肌肉骨骼模型的人体步态仿真系统, 其特征在于: 步骤三和 步骤四中具体为: 所述Critic网络包括构建的相同的两个全连接网络Q作为当前Critic网络, 以及两个 相同的Q*作为目标Critic网络, Actor 网络以及目标Actor网络以相同策略构建, 所构建的 Critic神经网络包括一个输入层, 两个全连接层和一个输出层。 输出层输出在状态s下所有 Actor网络所输出 的不同动作的Q值。 在t 时刻, 网络获取状态st,根据比较两个Critic网络 所输出的较大Q 值所对应的动作at,并获取奖赏rt+1; 根据自编码网络和S D3得出动作at, 并进行模型训练, 具体为; 1)构建并初始化记 忆回放单 元D中, 存 储训练样本; 2)初始化当前Q网络及目标Q网络的网络参数; 3)初始化当前Actor网络和目标Actor网络的网络参数; 4)观察当前肌肉骨骼状态E; 5)使用编码器encoder1和encoder 2从状态st提取特征f1和f2; 6)融合特 征f1和f2得到特征F; 7)根据特 征F输入到解码器, 得到 重构后的状态 8)根据重构状态得到动作at; 9)执行动作at并且转移到下一个 状态并重构得到 10)得到奖赏rt; 11)将 存入记忆回放单 元D中; 12)从经验 池中随机 选择一个样本; 13)更新Actor网络参数 其中, Q(s,a|θQ)与 μ(s|θμ)分别为在线Cirtic网络与 在线Actor网络, θQ与 θμ分别指这两 个网络的网络参数; 14)更新Critic网络参数 L=1/N∑i(yi‑Q(si,ai| θQ))2; 其中, yi为强化学习中TD目标值, 具体定义为yi=r+γQ(s', μ(s'|θμ′)|θQ′), γ为强化 学习折扣因子; 15)将当前Q 值网络参数复制到目标Q 值网络参数中。 7.一种计算机装置, 其特征在于: 包括: 处理器、 存储器、 通信接口和通信总线, 所述处 理器、 存储器和通信接口通过所述通信总线完成相互间的通信, 所述存储器用于存放至少 一可执行指令, 所述可执行指 令使所述处理器执行如权利要求1至6中任意一项 所述的基于 肌肉骨骼模型的人体步态仿真系统对应的操作。 8.一种计算机存储介质, 其特征在于: 所述计算机存储介质中存储有至少一个可执行 指令, 所述可执行指 令使处理器执行如权利要求 1至6中任意一项 所述的基于肌肉骨骼模型 的人体步态仿真系统。权 利 要 求 书 2/2 页 3 CN 115438580 A 3

.PDF文档 专利 基于肌肉骨骼模型的人体步态仿真系统、装置及存储介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于肌肉骨骼模型的人体步态仿真系统、装置及存储介质 第 1 页 专利 基于肌肉骨骼模型的人体步态仿真系统、装置及存储介质 第 2 页 专利 基于肌肉骨骼模型的人体步态仿真系统、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:15:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。