专利一种含领域自适应的机器人乱序目标推抓方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210581185.4 (22)申请日 2022.05.26 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人钱堃　段波伊　景星烁　张天浩　张卓旸　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师周蔚然 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种含领域自适应的机器人乱序目标推抓方法 (57)摘要本发明涉及机器人抓取操作领域，公开一种含领域自适应的机器人乱序目标推抓方法，包括以下步骤： 1）搭建与真实场景相似的仿真环境，训练推‑抓操作协同策略的深度强化学习模型； 2）分别在真实环境和仿真环境中采集样本，进行相应预处理构成用于训练图像迁移网络的数据集； 3）构建基于多级注意力聚合及一致性约束的双向域对抗迁移网络，在所采集的非配对图像数据集上进行训练，实现将实物图像迁移为伪仿真图像并且迁移效果满足机器人推 ‑抓场景中的任务一致性； 4）将解耦训练的图像迁移模块和机器人操作技能模型进行级联部署，实现机器人对现实环境中物体的乱序推散和抓取。本发明可用于基于RGB‑D相机的机器人乱序目标抓推协同策略迁移学习问题。权利要求书2页说明书6页附图3页 CN 114918918 A 2022.08.19 CN 114918918 A 1.一种含领域自适应的机器人乱序目标推抓方法，其特征在于，包括以下步骤：步骤1，在仿真平台中搭建与真实场景相似的仿真环境，训练推 ‑抓操作协同策略的深度强化学习模型并在仿真环境中测试其性能；步骤2，分别在真实和仿真环境中采集抓取场景图像，通过视角变换，构建现实域和仿真域非配对的多物体顶视图数据集；分别在顶视的RGB图IRGB和掩码深度图上根据物体检测边界框进行图像裁剪预处理构成用于训练图像迁移网络的数据集；步骤3，将卷积神经网络和Transformer结合，构建基于多级注意力聚合及一致性约束的双向域对抗迁移网络，在所采集的非配对仿真域和现实域的RGB ‑D数据集上进行训练，实现将实物图像迁移为伪仿真图像并且迁移效果满足机器人推 ‑抓场景中的任务一致性；步骤4，将解耦训练的图像迁移模块和推 ‑抓操作协同策略的深度强化学习模型进行级联部署，实现机器人对现实环境中物体的乱序推散和抓取。 2.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤1搭建的仿真环境中使用的物体模型是根据现实场景中使用的15个抓取物品制作的相应纯色CAD模型。 3.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤2中的图像裁剪预处理，是指对于收集到的现实域顶视图像使用目标检测模型检测出 RGB图像中所有物体，对于收集到的仿真域顶视图像直接使用物体掩码框定所有物体，然后分别在现实域和仿真域的RGB图IRGB和掩码深度图上，从物体中心扩展到正方形，以此方法裁剪IRGB和然后把裁剪出的图像调整大小到112*112，构成用于训练图像迁移网络的数据集。 4.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤3中所述的迁移网络是基于多级注意力聚合及一致性约束的双向域对抗迁移网络，其中生成器网络包括编码器和解码器结构；编码阶段，主要对浅层信息提取能力更强的CNN特征和高层语义抽象能力较强的Transformer特征进行串联编码；解码阶段，使用提出的多级注意力聚合模块进行级联解码。 5.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤3中所述的基于多级注意力聚合及一致性约束的双向域对抗迁移网络，其判别器网络基本结构为马尔可夫判别器，通过多层连接模块将不同尺度层所隐藏的判别信息进行自适应联合，构造多尺度连接马尔可夫判别器。 6.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤3中所述迁移模块的目标学习损失包括对抗损失、双向循环一致性损失、映射一致性损失、任务一致性损失。对于对抗损失，生成器GS→T将源域中的一张图片和一个噪声向量映射到一张假图片，判别器DT输出所输入给定图片属于源域的可能性，其域对抗损失函数为：其中，表示从源域中采样带标签的样本组成的数据集， Ns是源域样本数权　利　要　求　书 1/2 页 2 CN 114918918 A 2量；表示从目标域中采样无标签的样本组成的数据集， Nt是目标域样本数量。双向循环一致性损失为：映射一致性损失为：任务一致性损失为：其中， ks和kt分别为输入的源域样本xs和目标域样本xt中像素的个数， ms和mt是对应于样本xs和xt的物体掩码，是Hadamard乘积，是L2范数的平方。 7.根据权利要求1所述的一种含领域自适应的机器人乱序目标推抓方法，其特征在于：步骤1和步骤3所述的推 ‑抓操作协同策略结合的深度强化学习模型和图像迁移模型是解耦训练的，只在部署含领域自适应的机器人乱序目标推抓模型时才将二者级联。权　利　要　求　书 2/2 页 3 CN 114918918 A 3

专利 一种含领域自适应的机器人乱序目标推抓方法

专利一种含领域自适应的机器人乱序目标推抓方法