全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210525911.0 (22)申请日 2022.05.16 (71)申请人 南京邮电大 学 地址 210046 江苏省南京市栖霞区文苑路9 号 (72)发明人 徐国政 李茂捷 刘元归 高翔  王强 陈盛  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 董建林 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种基于离线策略强化学习的机械臂控制 方法及系统 (57)摘要 本发明公开了机械手控制领域的一种基于 离线策略强化学习的机械臂控制方法及系统, 包 括: 将状态信息s输入至上位机系统, 通过抓取模 型形成轨迹控制指令控制机械臂抓取所述目标 体; 所述抓取模型构建过程包括: 构建抓取任务 训练集; 仿真环境中通过抓取任务训练集对抓取 模型进行训练, 得到仿真抓取任务元训练模型; 在真实环境中对仿真抓取任务元训练模型进行 少量训练; 利用仿真训练过程 中的仿真数据Dmeta 再次对仿真抓取任务元训练模型进行仿真训练, 获得收敛的抓取模型; 本发明提高了抓取模型的 泛化性和迁移过程的样本效率, 缩短了模型迁移 时间, 同时降低了 机械臂在现实中训练的风险。 权利要求书3页 说明书7页 附图3页 CN 114888801 A 2022.08.12 CN 114888801 A 1.一种基于 离线策略强化学习的机 械臂控制方法, 其特 征在于, 包括: 采集目标体位姿以及机 械臂末端的位姿和速度构成状态信息s; 预训练的最终抓取模型根据状态信息s输入至形成轨迹控制指令, 并控制机械臂抓取 所述目标体; 所述最终抓取模型构建过程包括: 在仿真器中改变目标体的形状和姿态, 构建抓取任务训练集; 基于离线策略强化学习方法构建仿真抓取模型, 基于元Q学习的仿真环境中通过抓取 任务训练集对抓取模型进行训练, 将训练过程中仿真机械臂的轨迹数据、 轨迹上下文变量 作为迁移数据, 存 储至经验区Dmeta, 获得仿真抓取任务元训练模型; 在真实环境中对仿真抓取任务元训练模型进行设计次数的训练, 记录机械臂的轨迹数 据、 轨迹变量作为迁移数据, 存储至经验区Dnew; 由经验区Dnew和经验区Dmeta中分别抽取设定 数量的迁移数据组, 计算迁移数据组的倾向性得分和归一 化有效采样量; 利用经验区Dmeta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练, 训练过 程中基于倾向性得分和归一化有效采样量构建多任务目标作为迁移损失函数; 根据迁移损 失函数对仿真抓取任务元训练模型进行迭代更新, 获得收敛的最终抓取模型。 2.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法, 其特征在于, 在仿真器中改变目标体的形状和姿态, 构建抓取任务训练集的方法包括: 将目标体分别绕 水平设置的旋转轴a和竖直设置的旋转轴b旋转18次, 且每次旋转角度为10度, 得到36个抓 取任务, 构建为 抓取任务训练集。 3.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法, 其特征在于, 基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练的方法包括: 仿真抓取模型控制仿真机械臂执行抓取任务训练集中的抓取任务, 形成仿真机械臂的 轨迹数据, 利用后视经验回放 算法计算仿真机 械臂的轨 迹数据的目标状态和奖励信号; 基于目标状态和奖励信号构造多任务的仿真训练损失函数; 根据仿真训练损失函数对 仿真抓取模型的参数进行 更新, 获得损失函数收敛的仿真抓取任务元训练模型。 4.根据权利要求3所述的一种基于离线策略强化学习的机械臂控制方法, 其特征在于, 所述多任务目标的仿真训练损失函数的表达公式为: yj=rj+γQ'(st+1, μ'(st+1| θμ')| θQ') 公式中, Li表示为执行第i抓取任务的损失值; N表示为批量数据的数量; sj表示为第j个 数据中的机械臂状态; st+1表示为在仿真环境中第j个数据中的后继机械臂状态; aj表示为 第j个数据中的机械臂动作; rj表示为的第j个数据中 的奖励; Q( ·)表示为仿真抓取任务元 训练模型中的价值网络; Q ′(·)表示为仿真抓取任务元训练模型中的目标价值网络; γ表 示为奖励折扣因子; μ ′()表示为仿真抓取任务元训练模型中的目标决策网络; θμ′表示为目 标决策网络的参数; θQ′表示为目标价 值网络的参数。 5.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法, 其特征在于,权 利 要 求 书 1/3 页 2 CN 114888801 A 2轨迹上下文变量计算方法包括: 利用门控循环单 元GRU由轨 迹数据中提取轨 迹上下文变量。 6.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法, 其特征在于, 所述迁移数据组的归一 化有效采样量的计算方法包括; 通过迁移数据组训练逻辑斯谛回归模型作为倾向性得分估计函数β, 利用分估计函数β 计算迁移数据组的归一 化有效采样量, 表达公式为 公式中: ESS表示为迁移数据组的归一化有效采样量; β( ·)表示为倾向性得分估计函 数; xj表示为第j个迁移数据; m表示 为迁移数据总数量。 7.根据权利要求6所述的一种基于离线策略强化学习的机械臂控制方法, 其特征在于, 通过迁移数据组训练逻辑 斯谛回归 模型作为 倾向性得分估计函数β, 从经验区Dnew和经验区Dmeta中抽取设定 数量的迁移数据组, 记为x, 并分别设置 标签y=1 和y=‑1, 获得数据集(x,y); 通过各组迁移数据组对应数据集(x,y)训练逻辑斯谛回归模型作为倾向性得分估计函 数β, 表达公式为: 公式中, w表示 为逻辑斯谛回归 模型参数; T表示 为矩阵转置; P( ·)表示为事件概率。 8.根据权利要求7所述的一种基于离线策略强化学习的机械臂控制方法, 其特征在于, 迁移损失函数的表达公式为: 公式中, θmeta表示为仿真抓取任务元训练模型的参数。 9.一种基于 离线策略强化学习的机 械臂控制, 其特 征在于, 包括: 采集模块, 用于采集目标体位姿以及机 械臂末端的位姿和速度构成状态信息s; 控制模块, 用于预训练的最终抓取模型根据状态信息s输入至形成轨迹控制指令, 并控 制机械臂抓取 所述目标体; 抓取任务训练集构建模块, 在仿真器中改变目标体的形状和姿态, 构建抓取任务训练 集; 仿真抓取任务训练模块, 基于离线策略强化学习方法构建仿真抓取模型, 基于元Q学习 的仿真环境中通过抓取任务训练集对抓取模型进 行训练, 将训练过程中仿 真机械臂的轨迹 数据、 轨迹上下文变量作为迁移数据, 存 储至经验区Dmeta, 获得仿真抓取任务元训练模型; 真实抓取任务训练模块, 用于在 真实环境中对仿真抓取任务元训练模型进行设计次数 的训练, 记录机械臂的轨迹数据、 轨迹变量作为迁移数据, 存储至经验区Dnew; 由经验区Dnew 和经验区Dmeta中分别抽取设定数量的迁移数据组, 计算迁移数据组的倾向性得分和归一化 有效采样量;权 利 要 求 书 2/3 页 3 CN 114888801 A 3

.PDF文档 专利 一种基于离线策略强化学习的机械臂控制方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于离线策略强化学习的机械臂控制方法及系统 第 1 页 专利 一种基于离线策略强化学习的机械臂控制方法及系统 第 2 页 专利 一种基于离线策略强化学习的机械臂控制方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:19:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。