专利一种基于深度强化学习的机械臂运动规划方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210501902.8 (22)申请日 2022.05.09 (71)申请人华中科技大学地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人彭刚　杨进　 (74)专利代理机构华中科技大学专利中心 42201 专利代理师徐美琳 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种基于深度强化学习的机械臂运动规划方法和系统 (57)摘要本发明公开了一种基于深度强化学习的机械臂运动规划方法和系统，其中方法包括：在仿真环境中的不同任务场景下对深度强化学习网络进行训练，将训练过程中产生的经验数据分别存储在成功经验回放池和失败经验回放池；将深度强化学习网络训练得到的损失值和奖励值输入神经网络，输出权重，按照权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，循环迭代至收敛，得到训练好的深度强化学习网络；将真实环境下识别的目标物体位姿映射到仿真环境中，将仿真环境中机械臂的状态空间信息和目标物体位姿输入训练好的深度强化学习网络，得到最优路径。本发明数据利用率高、时间复杂度低、学习效率高、算法应用部署难度小。权利要求书3页说明书13页附图6页 CN 114952828 A 2022.08.30 CN 114952828 A 1.一种基于深度强化学习的机械臂运动规划方法，其特征在于，包括：在仿真环境中的不同任务场景下对深度强化学习网络进行训练，将训练过程中产生的经验数据按照任务执行状态分别存储在成功经验回放池和失败经验回放池；当成功经验回放池和失败经验回放池中经验数据的数量均达到设定值时，将深度强化学习网络训练得到的损失值和奖励值输入神经网络，输出权重，按照权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，将训练得到新的损失值和奖励值输入神经网络，输出新的权重，按照新的权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，循环迭代至深度强化学习网络收敛，得到训练好的深度强化学习网络；将真实环境下识别的目标物体位姿映射到仿真环境中，将仿真环境中机械臂的状态空间信息和目标物体位姿输入训练好的深度强化学习网络进行运动规划，得到真实环境下机械臂抓取目标物体的最优路径。 2.如权利要求1所述的一种基于深度强化学习的机械臂运动规划方法，其特征在于，所述训练时的任务场景包括：目标物体位置随机变化且在机械臂工作区域内无任何障碍物的任务一场景，以及目标物体位置随机变化且在机械臂工作区域内有多个障碍物的任务二场景。 3.如权利要求2所述的一种基于深度强化学习的机械臂运动规划方法，其特征在于，所述训练时的任务场景为任务一场景时，奖励值通过姿态奖励函数、步长奖励函数、人工设置动态域奖励函数或自适应动态域奖励函数计算得到。 4.如权利要求3所述的一种基于深度强化学习的机械臂运动规划方法，其特征在于，所述姿态奖励函数为：其中， Roriginal(DPT)＝Jreach+Rdis(DPT)+Rdone+Robstacle， Jreach表示任务状态项，即是否完成运动规划任务，完成即为1，未完成即为0， Rdis表示机械臂工具末端与目标点之间的曼哈顿距离DPT的相反数， Rdone表示机械臂在规定的时间步长内完成轨迹任务所得到的额外奖励， Robstacle表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值，表示机械臂期望运动方向与实际运动方向的两个空间三维向量的夹角，代表一个数学操作，当的值小于π/2时，否则 Rposture表示姿态奖励值。 5.如权利要求4所述的一种基于深度强化学习的机械臂运动规划方法，其特征在于，所述步长奖励函数为：其中， Rstride表示步长奖励值，表示机械臂的关节速度向量，表示机械臂的关节运动约束， /NJ， Δt表示机械臂对控制信号的响应时间， NJ表示机械臂的自由度。 6.如权利要求5所述的一种基于深度强化学习的机械臂运动规划方法，其特征在于，所述人工设置动态域奖励函数为：权　利　要　求　书 1/3 页 2 CN 114952828 A 2RMDA＝ δ·[Rposture， Rstride]T＝ δposture·Rposture+δstride·Rstride 其中， RMDA表示人工设置动态域奖励值， δ 由姿态系数δposture和步长系数δstride组成，将机械臂的工作区域内机械臂工具末端与目标点之间的曼哈顿距离DPT大于等于预设值的区域作为快速搜索区域，其余区域为慢速调整区域，快速搜索区域内姿态系数和步长系数分别为1和0，慢速调整区域内姿态系数和步长系数分别为0和1。 7.如权利要求5所述的一种基于深度强化学习的机械臂运动规划方法，其特征在于，所述自适应动态域奖励函数为： RADA＝ρ1Rstride+ρ2Rposture 其中， RADA表示自适应动态域奖励值， ρ1为步长权重系数， ρ2为姿态权重系数，表示对DPT作约束，当DPT大于1时则取1， ω1和ω2分别为ρ1和ρ2的调节参数，均大于 0。 8.如权利要求2所述的一种基于深度强化学习的机械臂运动规划方法，其特征在于，所述训练时的任务场景为任务二场景时，奖励值通过自适应动态域奖励函数计算得到。 9.如权利要求1或2所述的一种基于深度强化学习的机械臂运动规划方法，其特征在于，所述深度强化学习网络的训练包括：随机初始化深度强化学习网络参数，初始化成功经验回放池、失败经验回放池以及缓存池，随机初始化设置权重αNSER；在每个回合中，从仿真环境中的不同任务场景下的状态空间信息中获取初始状态s1，将初始状态s1输入深度强化学习网络，输出初始动作a1，在该回合的后续每一步中，将第t步的状态st输入深度强化学习网络，输出动作at，执行动作at根据奖励函数计算奖励值rt，转移到新状态st+1，在缓存池中存储经验数据(st， at， rt， st+1)；若在单个回合的最大时间步长内，机械臂完成了运动规划任务，则将该时间步长之前的所有经验数据存放于成功经验回放池中，否则将其存放于失败经验回放池中；当成功经验回放池和失败经验回放池内的经验数据的数量均达到Nminibatch时，从成功经验回放池中随机采样αNSER*Nminibatch个经验数据并且从失败经验回放池中随机采样(1 ‑ αNSER)*Nminibatch个经验数据；利用抽取的经验数据训练深度强化学习网络，将训练过程中形成的新的经验数据先放置于缓存池，然后按照任务执行状态分别添加至成功经验回放池和失败经验回放池；将训练得到的损失值和奖励值输入神经网络，输出新的权重，按照新的权重从更新后的成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，循环迭代至深度强化学习网络收敛，得到训练好的深度强化学习网络。 10.一种基于深度强化学习的机械臂运动规划系统，其特征在于，包括：视觉传感器、仿真模块、深度强化学习网络、训练模块和真实机械臂控制模块；所述视觉传感器，用于获取真实环境下的目标物体图像，识别目标物体位姿；所述仿真模块，用于将真实环境下识别的目标物体位姿映射到仿真环境中；所述深度强化学习网络，用于对仿真环境中机械臂的状态空间信息和目标物体位姿进行运动规划，得到真实环境下机械臂抓取目标物体的最优路径；所述真实机械臂控制模块，用于控制真实机械臂按照最优路径运动。所述训练模块，用于在仿真环境中的不同任务场景下对深度强化学习网络进行训练，权　利　要　求　书 2/3 页 3 CN 114952828 A 3

专利 一种基于深度强化学习的机械臂运动规划方法和系统

专利一种基于深度强化学习的机械臂运动规划方法和系统