全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210501902.8 (22)申请日 2022.05.09 (71)申请人 华中科技大 学 地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 彭刚 杨进  (74)专利代理 机构 华中科技大 学专利中心 42201 专利代理师 徐美琳 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种基于深度强化学习的机械臂运动规划 方法和系统 (57)摘要 本发明公开了一种基于深度强化学习的机 械臂运动规划方法和系统, 其中方法包括: 在仿 真环境中的不同任务场景下对深度强化学习网 络进行训练, 将训练过程中产生的经验数据分别 存储在成功经验回放池和失败经验回放池; 将深 度强化学习网络训练得到的损失值和奖励值输 入神经网络, 输出权重, 按照权重从成功经验回 放池和失败经验回放池中抽取经验数据送入深 度强化学习网络进行训练, 循环迭代至收敛, 得 到训练好的深度强化学习网络; 将真实环境下识 别的目标物体位姿映射到仿真环 境中, 将仿真环 境中机械臂的状态空间信息和目标物体位姿输 入训练好的深度强化学习网络, 得到最优路径。 本发明数据利用率高、 时间复杂度低、 学习效率 高、 算法应用部署难度小。 权利要求书3页 说明书13页 附图6页 CN 114952828 A 2022.08.30 CN 114952828 A 1.一种基于深度强化学习的机 械臂运动规划方法, 其特 征在于, 包括: 在仿真环境中的不同任务场景下对深度强化学习网络进行训练, 将训练过程中产生的 经验数据按照任务执 行状态分别存 储在成功经验回放池和失败经验回放池; 当成功经验回放池和失败经验回放池中经验数据的数量均达到设定值 时, 将深度强化 学习网络训练得到的损失值和奖励值输入神经网络, 输出权重, 按照权重从成功经验回放 池和失败经验回放池中抽取经验数据 送入深度强化学习网络进行训练, 将训练得到新的损 失值和奖励值输入神经网络, 输出新的权重, 按照新的权重从成功经验回放池和失败经验 回放池中抽取经验数据送入深度强化学习网络进 行训练, 循环迭代至深度强化学习网络收 敛, 得到训练好的深度强化学习网络; 将真实环境下识别的目标物体位姿映射到仿真环境中, 将仿真环境中机械臂的状态 空 间信息和目标物体位姿输入训练好的深度强化学习网络进 行运动规划, 得到真实环境下机 械臂抓取目标物体的最优路径。 2.如权利要求1所述的一种基于深度强化学习的机械臂运动 规划方法, 其特征在于, 所 述训练时的任务场景包括: 目标物体位置随机变化且在机械臂工作区域内无任何障碍物的 任务一场景, 以及目标物体位置随机变化且在机械臂工作区域内有多个障碍物的任务二场 景。 3.如权利要求2所述的一种基于深度强化学习的机械臂运动 规划方法, 其特征在于, 所 述训练时的任务场景为任务一场景时, 奖励值通过姿态奖励函数、 步长奖励函数、 人工 设置 动态域奖励函数或自适应动态域奖励函数计算得到 。 4.如权利要求3所述的一种基于深度强化学习的机械臂运动 规划方法, 其特征在于, 所 述姿态奖励函数为: 其中, Roriginal(DPT)=Jreach+Rdis(DPT)+Rdone+Robstacle, Jreach表示任务状态项, 即是否完成 运动规划任务, 完成即为1, 未完成即为0, Rdis表示机械臂工具末端与目标点之间的曼哈顿 距离DPT的相反数, Rdone表示机械臂在规定的时间步长内完成轨迹任务所得到的额外奖励, Robstacle表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值, 表示机械臂期望运动 方向与实际运动方向的两个空间三维向量的 夹角, 代表一个数学操作, 当 的值小于π/2时, 否则 Rposture表示姿态奖励值。 5.如权利要求4所述的一种基于深度强化学习的机械臂运动 规划方法, 其特征在于, 所 述步长奖励函数为: 其中, Rstride表示步长奖励值, 表示机械臂的关节速度向量, 表示机械臂的 关节运动约束, /NJ, Δt表示机械臂对控制信号的响应时间, NJ表示机械臂的自由度。 6.如权利要求5所述的一种基于深度强化学习的机械臂运动 规划方法, 其特征在于, 所 述人工设置动态域奖励函数为:权 利 要 求 书 1/3 页 2 CN 114952828 A 2RMDA= δ·[Rposture, Rstride]T= δposture·Rposture+δstride·Rstride 其中, RMDA表示人工设置动态域奖励值, δ 由姿态系数δposture和步长系数δstride组成, 将机 械臂的工作区域内机械臂工具末端与目标点之间的曼哈顿距离DPT大于等于预设值的区域 作为快速搜索区域, 其余区域为慢速调整区域, 快速搜索区域内姿态系 数和步长系数分别 为1和0, 慢速调整区域内姿态系数和步长系数分别为0和1。 7.如权利要求5所述的一种基于深度强化学习的机械臂运动 规划方法, 其特征在于, 所 述自适应动态域奖励函数为: RADA=ρ1Rstride+ρ2Rposture 其中, RADA表示自适应动态域奖励值, ρ1为步长权重系数, ρ2为姿态权重系数, 表示对DPT作约束, 当DPT大于1时则取1, ω1和ω2分别为ρ1和ρ2的调节参数, 均大于 0。 8.如权利要求2所述的一种基于深度强化学习的机械臂运动 规划方法, 其特征在于, 所 述训练时的任务场景为任务 二场景时, 奖励值 通过自适应动态域奖励函数计算得到 。 9.如权利要求1或2所述的一种基于深度强化学习的机械臂运动规划方法, 其特征在 于, 所述深度强化学习网络的训练包括: 随机初始化深度强化学习 网络参数, 初始化成功经验回放池、 失败经验回放池以及缓 存池, 随机初始化设置 权重αNSER; 在每个回合中, 从仿真环境中的不同任 务场景下的状态空间信息中获取初始状态s1, 将 初始状态s1输入深度强化 学习网络, 输出初始动 作a1, 在该回合的后续每一步中, 将第t步的 状态st输入深度强化学习网络, 输出动作at, 执行动作at根据奖励函数计算奖励值rt, 转移 到新状态st+1, 在缓存池中存储经验数据(st, at, rt, st+1); 若在单个回合的最大时间步长内, 机械臂完成了运动规划任务, 则将该时间步长之前 的所有经验数据存放于成功经验回放池中, 否则将其存放于失败经验回放池中; 当成功经验回放池和失败经验回放池内的经验数据的数量均达到Nminibatch时, 从成功 经验回放池中随机采样αNSER*Nminibatch个经验数据并且从失败经验回放池中随机采样(1 ‑ αNSER)*Nminibatch个经验数据; 利用抽取的经验数据训练深度强化学习网络, 将训练过程中形成的新的经验数据 先放 置于缓存池, 然后按照任务执 行状态分别添加至成功经验回放池和失败经验回放池; 将训练得到的损 失值和奖励值输入神经网络, 输出新的权重, 按照新的权重从更新后 的成功经验回放池和失败经验回放池中抽取经验数据 送入深度强化学习网络进行训练, 循 环迭代至深度强化学习网络收敛, 得到训练好的深度强化学习网络 。 10.一种基于深度强化学习的机械臂运动 规划系统, 其特征在于, 包括: 视觉传感器、 仿 真模块、 深度强化学习网络、 训练模块和真实机 械臂控制模块; 所述视觉传感器, 用于获取真实环境下的目标物体图像, 识别目标物体位姿; 所述仿真模块, 用于将真实环境下识别的目标物体位姿映射到 仿真环境中; 所述深度强化学习网络, 用于对仿真环境中机械臂的状态 空间信息和目标物体位姿进 行运动规划, 得到真实环境下机 械臂抓取目标物体的最优路径; 所述真实机 械臂控制模块, 用于控制真实机 械臂按照最优路径运动。 所述训练模块, 用于在仿真环境中的不同任务场景下对深度强化学习 网络进行训练,权 利 要 求 书 2/3 页 3 CN 114952828 A 3

.PDF文档 专利 一种基于深度强化学习的机械臂运动规划方法和系统

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的机械臂运动规划方法和系统 第 1 页 专利 一种基于深度强化学习的机械臂运动规划方法和系统 第 2 页 专利 一种基于深度强化学习的机械臂运动规划方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:19:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。