全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210705509.0 (22)申请日 2022.06.21 (71)申请人 南京大学 地址 210000 江苏省南京市栖霞区仙林大 道163号 (72)发明人 王志 丁泓宇 王博 陈春林  辛博 朱张青  (74)专利代理 机构 南京天翼专利代理有限责任 公司 321 12 专利代理师 钱新园 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种用于强化学习机械臂控制中基于磁场 的奖励塑形方法 (57)摘要 本发明公开一种用于强化学习机械臂控制 中基于磁场的奖励塑形方法, 包括: S1、 设计任务 环境, 设定机械臂、 目标物和障碍物的相关参数, 设置强化学习算法的超参数; S2、 将目标物和障 碍物分别视为与其同等形状的永磁体, 确定三维 空间磁场强度分布的计算方式; S3、 机械臂与环 境交互, 收集训练数据, 计算机械臂末端坐标在 目标物和障碍物 磁场中的磁场强度, 得到磁场奖 励函数; S4、 利用DPBA算法将磁场奖励函数转换 为基于势能的塑形奖励函数, 与训练数据一起存 放至经验回放池; S5、 从经验回放池中采集一个 批次的数据, 使用强化学习算法训练机械臂完成 规定任务。 本发 明能够为机械臂提供目标物和障 碍物更为丰富的方位信息, 从而提高强化学习算 法的学习效率。 权利要求书4页 说明书10页 附图2页 CN 115179280 A 2022.10.14 CN 115179280 A 1.一种用于强化学习机械臂控制中基于磁场的奖励塑形方法, 其特征在于, 包括如下 步骤: S1、 设计任务环境, 设定机械臂、 目标物和障碍物的相关参数, 设置强化学习算法的各 项超参数; S2、 将目标物视为同等形状的方形永磁体, 确定其磁化方向和三维空间磁场强度分布 的计算方式, 障碍物同理; S3、 机械臂与环境交互, 收集训练数据, 并根据下一状态计算机械臂末端坐标在目标物 和障碍物磁场中的磁场强度, 经 过标准化和归一 化处理后得到磁场奖励函数; S4、 利用DPBA算法将磁场奖励函数转换为基于势能的塑形奖励函数, 并和训练数据一 起存放于经验回放池; S5、 从经验回放池中采集一个批次的数据, 使用强化学习算法训练机械臂在动态环境 下避开障碍物并到 达目标物的最优策略。 2.根据权利要求书1所述的用于强化学习机械臂控制中基于磁场的奖励塑形方法, 其 特征在于, 所述 步骤S1包括以下步骤: 步骤1.1, 设计任务环境的状态 观测值和机 械臂的动作值, 具体包括: a、 环境状态观测值包含机械臂三个关节的转角、 机械臂末端的坐标, 以及目标物和障 碍物中心点的坐标; b、 机械臂的动作值为三个关节电机的转角速度, 即在单位时间步长里三个关节旋转的 角度; 步骤1.2, 建立与机械臂的连接, 设置三个关节转动的速度和加速度范围; 规定目标物 和障碍物随机生成的方式, 确保目标物在机械臂末端可达到的范围之内, 并且目标物和障 碍物不相交; 步骤1.3, 设置强化学习算法基本的超参数, 至少包括: 探索噪声, 经验回放池 的大 小; 每次训练的更新次数K, 每次更新所用数据批次的大小N; 神经网络的层数, 每层的节点 数、 激活函数; 折扣因子γ; 策略网络μθ(s)和值函数网络Qφ(s, a)参数更新的优化器、 学习 率, 目标网络 和 的软更新步长 τ。 3.根据权利要求书1所述的用于强化学习机械臂控制中基于磁场的奖励塑形方法, 其 特征在于, 所述 步骤S2中, 方 形永磁体三维空间中磁场强度分布的解析计算方法如下: 假设磁化方向为z轴正方向, 磁化强度为Mc, 对于沿x轴、 y轴、 z轴 长度分别为l, w, h的方 形永磁体, 其在三维空间中任意一点P(x, y, z)处在x轴、 y轴、 z轴方向上的磁场强度分量可 表示为: 其中, Γ(γ1, γ2, γ3)和 为两个辅助函数, 表达式如下:权 利 要 求 书 1/4 页 2 CN 115179280 A 2其中, ∈为一极小值; 于是, 可以得到方形永磁体在三维空间中任意一点的磁场强度 为: 。 4.根据权利要求书1所述的用于强化学习机械臂控制中基于磁场的奖励塑形方法, 其 特征在于, 所述 步骤S3包括以下步骤: 步骤3.1, 将机械臂三个关节的转角 初始化为零, 读取机械臂末端 的坐标; 随机设置目 标物和障碍物的位置, 读取目标物和障碍物中心点在世界坐标系中的坐标, 得到状态观测 值的初始值; 步骤3.2, 机械臂根据当前状态观测值s和策略, 输出动作并对其施加噪声得到a, 与环 境交互后得到下一状态s ′和原始奖励值r; 在确保下一状态中机械臂三个关节的转角在其 相应的工作范围内的情况 下, 控制机 械臂运动至下一状态; 步骤3.3, 将下一状态中机械臂末端坐标从世界坐标系转换至目标物磁体和障碍物磁 体的磁场坐标系中; 假设下一状态中机械臂末端在世界坐标系中的坐标为 目标物磁场坐标系 原点相对于世界坐标系原点的平移量为(Tx, Ty, Tz), 目标物磁场坐标系相对于世界坐标系 绕x轴、 y轴、 z轴的旋转角度为θx, θy, θz, 其正方向遵循右手螺旋定则, 那么机械臂末端在目 标物磁场坐标系中的坐标 可表示为: 其中, 分别为坐标系绕x轴 、 y轴、 z轴的旋转变换矩阵, 具体如下: 步骤3.4, 计算下一状态中机械臂末端坐标在目标物磁场和障碍物磁场中的磁场强度, 并对其进行 标准化处理: 假设环境中存在1个目标物和n个障碍物, 其中目标物和障碍物磁体的磁场强度计算函 数分别为 机械臂末端在目标物和障碍物磁体的磁场坐标系中的权 利 要 求 书 2/4 页 3 CN 115179280 A 3

.PDF文档 专利 一种用于强化学习机械臂控制中基于磁场的奖励塑形方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于强化学习机械臂控制中基于磁场的奖励塑形方法 第 1 页 专利 一种用于强化学习机械臂控制中基于磁场的奖励塑形方法 第 2 页 专利 一种用于强化学习机械臂控制中基于磁场的奖励塑形方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:22:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。