专利一种基于离线策略强化学习的机械臂控制方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210525911.0 (22)申请日 2022.05.16 (71)申请人南京邮电大学地址 210046 江苏省南京市栖霞区文苑路9 号 (72)发明人徐国政　李茂捷　刘元归　高翔　王强　陈盛　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 专利代理师董建林 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种基于离线策略强化学习的机械臂控制方法及系统 (57)摘要本发明公开了机械手控制领域的一种基于离线策略强化学习的机械臂控制方法及系统，包括：将状态信息s输入至上位机系统，通过抓取模型形成轨迹控制指令控制机械臂抓取所述目标体；所述抓取模型构建过程包括：构建抓取任务训练集；仿真环境中通过抓取任务训练集对抓取模型进行训练，得到仿真抓取任务元训练模型；在真实环境中对仿真抓取任务元训练模型进行少量训练；利用仿真训练过程中的仿真数据Dmeta 再次对仿真抓取任务元训练模型进行仿真训练，获得收敛的抓取模型；本发明提高了抓取模型的泛化性和迁移过程的样本效率，缩短了模型迁移时间，同时降低了机械臂在现实中训练的风险。权利要求书3页说明书7页附图3页 CN 114888801 A 2022.08.12 CN 114888801 A 1.一种基于离线策略强化学习的机械臂控制方法，其特征在于，包括：采集目标体位姿以及机械臂末端的位姿和速度构成状态信息s；预训练的最终抓取模型根据状态信息s输入至形成轨迹控制指令，并控制机械臂抓取所述目标体；所述最终抓取模型构建过程包括：在仿真器中改变目标体的形状和姿态，构建抓取任务训练集；基于离线策略强化学习方法构建仿真抓取模型，基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练，将训练过程中仿真机械臂的轨迹数据、轨迹上下文变量作为迁移数据，存储至经验区Dmeta，获得仿真抓取任务元训练模型；在真实环境中对仿真抓取任务元训练模型进行设计次数的训练，记录机械臂的轨迹数据、轨迹变量作为迁移数据，存储至经验区Dnew；由经验区Dnew和经验区Dmeta中分别抽取设定数量的迁移数据组，计算迁移数据组的倾向性得分和归一化有效采样量；利用经验区Dmeta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练，训练过程中基于倾向性得分和归一化有效采样量构建多任务目标作为迁移损失函数；根据迁移损失函数对仿真抓取任务元训练模型进行迭代更新，获得收敛的最终抓取模型。 2.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法，其特征在于，在仿真器中改变目标体的形状和姿态，构建抓取任务训练集的方法包括：将目标体分别绕水平设置的旋转轴a和竖直设置的旋转轴b旋转18次，且每次旋转角度为10度，得到36个抓取任务，构建为抓取任务训练集。 3.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法，其特征在于，基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练的方法包括：仿真抓取模型控制仿真机械臂执行抓取任务训练集中的抓取任务，形成仿真机械臂的轨迹数据，利用后视经验回放算法计算仿真机械臂的轨迹数据的目标状态和奖励信号；基于目标状态和奖励信号构造多任务的仿真训练损失函数；根据仿真训练损失函数对仿真抓取模型的参数进行更新，获得损失函数收敛的仿真抓取任务元训练模型。 4.根据权利要求3所述的一种基于离线策略强化学习的机械臂控制方法，其特征在于，所述多任务目标的仿真训练损失函数的表达公式为： yj＝rj+γQ'(st+1, μ'(st+1| θμ')| θQ') 公式中， Li表示为执行第i抓取任务的损失值； N表示为批量数据的数量； sj表示为第j个数据中的机械臂状态； st+1表示为在仿真环境中第j个数据中的后继机械臂状态； aj表示为第j个数据中的机械臂动作； rj表示为的第j个数据中的奖励； Q( ·)表示为仿真抓取任务元训练模型中的价值网络； Q ′(·)表示为仿真抓取任务元训练模型中的目标价值网络； γ表示为奖励折扣因子； μ ′()表示为仿真抓取任务元训练模型中的目标决策网络； θμ′表示为目标决策网络的参数； θQ′表示为目标价值网络的参数。 5.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法，其特征在于，权　利　要　求　书 1/3 页 2 CN 114888801 A 2轨迹上下文变量计算方法包括：利用门控循环单元GRU由轨迹数据中提取轨迹上下文变量。 6.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法，其特征在于，所述迁移数据组的归一化有效采样量的计算方法包括；通过迁移数据组训练逻辑斯谛回归模型作为倾向性得分估计函数β，利用分估计函数β 计算迁移数据组的归一化有效采样量，表达公式为公式中： ESS表示为迁移数据组的归一化有效采样量； β( ·)表示为倾向性得分估计函数； xj表示为第j个迁移数据； m表示为迁移数据总数量。 7.根据权利要求6所述的一种基于离线策略强化学习的机械臂控制方法，其特征在于，通过迁移数据组训练逻辑斯谛回归模型作为倾向性得分估计函数β，从经验区Dnew和经验区Dmeta中抽取设定数量的迁移数据组，记为x，并分别设置标签y＝1 和y＝‑1，获得数据集(x,y)；通过各组迁移数据组对应数据集(x,y)训练逻辑斯谛回归模型作为倾向性得分估计函数β，表达公式为：公式中， w表示为逻辑斯谛回归模型参数； T表示为矩阵转置； P( ·)表示为事件概率。 8.根据权利要求7所述的一种基于离线策略强化学习的机械臂控制方法，其特征在于，迁移损失函数的表达公式为：公式中， θmeta表示为仿真抓取任务元训练模型的参数。 9.一种基于离线策略强化学习的机械臂控制，其特征在于，包括：采集模块，用于采集目标体位姿以及机械臂末端的位姿和速度构成状态信息s；控制模块，用于预训练的最终抓取模型根据状态信息s输入至形成轨迹控制指令，并控制机械臂抓取所述目标体；抓取任务训练集构建模块，在仿真器中改变目标体的形状和姿态，构建抓取任务训练集；仿真抓取任务训练模块，基于离线策略强化学习方法构建仿真抓取模型，基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练，将训练过程中仿真机械臂的轨迹数据、轨迹上下文变量作为迁移数据，存储至经验区Dmeta，获得仿真抓取任务元训练模型；真实抓取任务训练模块，用于在真实环境中对仿真抓取任务元训练模型进行设计次数的训练，记录机械臂的轨迹数据、轨迹变量作为迁移数据，存储至经验区Dnew；由经验区Dnew 和经验区Dmeta中分别抽取设定数量的迁移数据组，计算迁移数据组的倾向性得分和归一化有效采样量；权　利　要　求　书 2/3 页 3 CN 114888801 A 3

专利 一种基于离线策略强化学习的机械臂控制方法及系统

专利一种基于离线策略强化学习的机械臂控制方法及系统