专利一种用于强化学习机械臂控制中基于磁场的奖励塑形方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210705509.0 (22)申请日 2022.06.21 (71)申请人南京大学地址 210000 江苏省南京市栖霞区仙林大道163号 (72)发明人王志　丁泓宇　王博　陈春林　辛博　朱张青　 (74)专利代理机构南京天翼专利代理有限责任公司 321 12 专利代理师钱新园 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种用于强化学习机械臂控制中基于磁场的奖励塑形方法 (57)摘要本发明公开一种用于强化学习机械臂控制中基于磁场的奖励塑形方法，包括： S1、设计任务环境，设定机械臂、目标物和障碍物的相关参数，设置强化学习算法的超参数； S2、将目标物和障碍物分别视为与其同等形状的永磁体，确定三维空间磁场强度分布的计算方式； S3、机械臂与环境交互，收集训练数据，计算机械臂末端坐标在目标物和障碍物磁场中的磁场强度，得到磁场奖励函数； S4、利用DPBA算法将磁场奖励函数转换为基于势能的塑形奖励函数，与训练数据一起存放至经验回放池； S5、从经验回放池中采集一个批次的数据，使用强化学习算法训练机械臂完成规定任务。本发明能够为机械臂提供目标物和障碍物更为丰富的方位信息，从而提高强化学习算法的学习效率。权利要求书4页说明书10页附图2页 CN 115179280 A 2022.10.14 CN 115179280 A 1.一种用于强化学习机械臂控制中基于磁场的奖励塑形方法，其特征在于，包括如下步骤： S1、设计任务环境，设定机械臂、目标物和障碍物的相关参数，设置强化学习算法的各项超参数； S2、将目标物视为同等形状的方形永磁体，确定其磁化方向和三维空间磁场强度分布的计算方式，障碍物同理； S3、机械臂与环境交互，收集训练数据，并根据下一状态计算机械臂末端坐标在目标物和障碍物磁场中的磁场强度，经过标准化和归一化处理后得到磁场奖励函数； S4、利用DPBA算法将磁场奖励函数转换为基于势能的塑形奖励函数，并和训练数据一起存放于经验回放池； S5、从经验回放池中采集一个批次的数据，使用强化学习算法训练机械臂在动态环境下避开障碍物并到达目标物的最优策略。 2.根据权利要求书1所述的用于强化学习机械臂控制中基于磁场的奖励塑形方法，其特征在于，所述步骤S1包括以下步骤：步骤1.1，设计任务环境的状态观测值和机械臂的动作值，具体包括： a、环境状态观测值包含机械臂三个关节的转角、机械臂末端的坐标，以及目标物和障碍物中心点的坐标； b、机械臂的动作值为三个关节电机的转角速度，即在单位时间步长里三个关节旋转的角度；步骤1.2，建立与机械臂的连接，设置三个关节转动的速度和加速度范围；规定目标物和障碍物随机生成的方式，确保目标物在机械臂末端可达到的范围之内，并且目标物和障碍物不相交；步骤1.3，设置强化学习算法基本的超参数，至少包括：探索噪声，经验回放池的大小；每次训练的更新次数K，每次更新所用数据批次的大小N；神经网络的层数，每层的节点数、激活函数；折扣因子γ；策略网络μθ(s)和值函数网络Qφ(s， a)参数更新的优化器、学习率，目标网络和的软更新步长 τ。 3.根据权利要求书1所述的用于强化学习机械臂控制中基于磁场的奖励塑形方法，其特征在于，所述步骤S2中，方形永磁体三维空间中磁场强度分布的解析计算方法如下：假设磁化方向为z轴正方向，磁化强度为Mc，对于沿x轴、 y轴、 z轴长度分别为l， w， h的方形永磁体，其在三维空间中任意一点P(x， y， z)处在x轴、 y轴、 z轴方向上的磁场强度分量可表示为：其中， Γ(γ1， γ2， γ3)和为两个辅助函数，表达式如下：权　利　要　求　书 1/4 页 2 CN 115179280 A 2其中， ∈为一极小值；于是，可以得到方形永磁体在三维空间中任意一点的磁场强度为：。 4.根据权利要求书1所述的用于强化学习机械臂控制中基于磁场的奖励塑形方法，其特征在于，所述步骤S3包括以下步骤：步骤3.1，将机械臂三个关节的转角初始化为零，读取机械臂末端的坐标；随机设置目标物和障碍物的位置，读取目标物和障碍物中心点在世界坐标系中的坐标，得到状态观测值的初始值；步骤3.2，机械臂根据当前状态观测值s和策略，输出动作并对其施加噪声得到a，与环境交互后得到下一状态s ′和原始奖励值r；在确保下一状态中机械臂三个关节的转角在其相应的工作范围内的情况下，控制机械臂运动至下一状态；步骤3.3，将下一状态中机械臂末端坐标从世界坐标系转换至目标物磁体和障碍物磁体的磁场坐标系中；假设下一状态中机械臂末端在世界坐标系中的坐标为目标物磁场坐标系原点相对于世界坐标系原点的平移量为(Tx， Ty， Tz)，目标物磁场坐标系相对于世界坐标系绕x轴、 y轴、 z轴的旋转角度为θx， θy， θz，其正方向遵循右手螺旋定则，那么机械臂末端在目标物磁场坐标系中的坐标可表示为：其中，分别为坐标系绕x轴、 y轴、 z轴的旋转变换矩阵，具体如下：步骤3.4，计算下一状态中机械臂末端坐标在目标物磁场和障碍物磁场中的磁场强度，并对其进行标准化处理：假设环境中存在1个目标物和n个障碍物，其中目标物和障碍物磁体的磁场强度计算函数分别为机械臂末端在目标物和障碍物磁体的磁场坐标系中的权　利　要　求　书 2/4 页 3 CN 115179280 A 3

专利 一种用于强化学习机械臂控制中基于磁场的奖励塑形方法

专利一种用于强化学习机械臂控制中基于磁场的奖励塑形方法