专利基于临界状态循环网络的肌肉骨骼机器人控制方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210476308.8 (22)申请日 2022.04.29 (71)申请人中国科学院自动化研究所地址 100190 北京市海淀区中关村东路95 号 (72)发明人陈嘉浩　王萧娜　乔红　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师白冬梅 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称基于临界状态循环网络的肌肉骨骼机器人控制方法及装置 (57)摘要本发明提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置，方法包括：基于循环网络，得到输入信号对应的控制信号，并基于控制信号控制肌肉骨骼机器人移动至目标位置；循环网络训练步骤包括：基于临界状态权重条件，对初始模型的循环权重和偏置向量进行调整，得到临界网络；将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至临界网络，得到样本控制信号；基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径，确定样本奖励信号；基于样本奖励信号，更新临界网络的权重，得到循环网络。本发明能够精确控制肌肉骨骼机器人运动至目标位置。权利要求书2页说明书12页附图2页 CN 114872042 A 2022.08.09 CN 114872042 A 1.一种基于临界状态循环网络的肌肉骨骼机器人控制方法，其特征在于，包括：确定肌肉骨骼机器人的输入信号；将所述输入信号输入至循环网络，得到所述循环网络输出的控制信号；基于所述控制信号，控制所述肌肉骨骼机器人移动至目标位置；其中，所述循环网络基于如下步骤训练得到：基于临界状态权重条件，对初始模型的循环权重和偏置向量进行调整，得到临界网络；将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络，得到所述临界网络输出的样本控制信号，所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定；基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径，确定样本奖励信号；基于所述样本奖励信号，更新所述临界网络的权重，直至所述临界网络达到收敛条件，得到所述循环网络。 2.根据权利要求1所述的基于临界状态循环网络的肌肉骨骼机器人控制方法，其特征在于，所述临界状态权重条件基于如下公式确定： rt＝(1‑α )rt‑1+α(Wixt+Whht‑1+b) ht＝tanh(rt) 其中，表示施加到rt上的瞬时噪声向量，为网络在t时刻的输入信号，和分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率，为所述偏置向量，为连接循环网络输入层神经元和隐藏层神经元的输入权重，为循环网络隐藏层神经元之间相互连接的循环权重，为循环网络输出权重的矩阵。 3.根据权利要求1所述的基于临界状态循环网络的肌肉骨骼机器人控制方法，其特征在于，所述当前时刻的样本目标位置基于如下公式确定：其中，表示所述当前时刻的样本目标位置， O表示起始时刻的样本位置， tF表示肌肉骨骼机器人的运动持续时间， P表示所述终点时刻的样本目标位置。 4.根据权利要求1至3任一项所述的基于临界状态循环网络的肌肉骨骼机器人控制方法，其特征在于，所述基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径，确定样本奖励信号，包括：基于所述样本控制信号对应的样本实际位置以及所述样本控制信号对应的样本目标位置，确定所述样本控制信号对应的位置误差；权　利　要　求　书 1/2 页 2 CN 114872042 A 2基于终点时刻的样本目标位置以及终点时刻的样本实际位置，确定终点时刻对应的位置误差；基于所述样本控制信号对应的位置误差、所述终点时刻对应的位置误差以及当前循环网络的谱半径，确定所述样本奖励信号。 5.根据权利要求4所述的基于临界状态循环网络的肌肉骨骼机器人控制方法，其特征在于，所述样本奖励信号基于如下公式确定：其中， R表示持续了S个时刻的样本奖励信号， et表示所述样本控制信号对应的位置误差， eend表示所述终点时刻对应的位置误差， ρ(Wh)表示循环权重Wh的谱半径， γ1， γ2， γ3和 γ4表示加权系数常数。 6.根据权利要求1至3任一项所述的基于临界状态循环网络的肌肉骨骼机器人控制方法，其特征在于，所述基于所述样本奖励信号，更新所述临界网络的权重，包括：基于所述样本奖励信号，确定所述样本奖励信号的期望；基于所述样本奖励信号、所述样本奖励信号的期望以及随机噪声，更新所述临界网络的权重。 7.一种基于临界状态循环网络的肌肉骨骼机器人控制装置，其特征在于，包括：确定单元，用于确定肌肉骨骼机器人的输入信号；输出单元，用于将所述输入信号输入至循环网络，得到所述循环网络输出的控制信号；控制单元，用于基于所述控制信号，控制所述肌肉骨骼机器人移动至目标位置；其中，所述循环网络基于如下步骤训练得到：基于临界状态权重条件，对初始模型的循环权重和偏置向量进行调整，得到临界网络；将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络，得到所述临界网络输出的样本控制信号，所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定；基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径，确定样本奖励信号；基于所述样本奖励信号，更新所述临界网络的权重，直至所述临界网络达到收敛条件，得到所述循环网络。 8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于临界状态循环网络的肌肉骨骼机器人控制方法。 9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于临界状态循环网络的肌肉骨骼机器人控制方法。 10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至 6任一项所述基于临界状态循环网络的肌肉骨骼机器人控制方法。权　利　要　求　书 2/2 页 3 CN 114872042 A 3

专利 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置

专利基于临界状态循环网络的肌肉骨骼机器人控制方法及装置