专利基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210876472.8 (22)申请日 2022.07.25 (71)申请人武汉理工大学地址 430070 湖北省武汉市洪山区珞狮路 122号 (72)发明人陆丽萍　朱万杰　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 专利代理师罗飞 (51)Int.Cl. B60W 60/00(2020.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置 (57)摘要本发明公开了一种基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置，其中的方法首先搭建仿真环境，获取城市场景下车辆的环境数据；然后构建自动驾驶控制模型，通过感知模块用于基于概率图模型网络根据融合后的特征得到环境信息的编码特征，强化学习模块用于根据环境信息的编码特征进行城市场景中自动驾驶的学习，得到反馈信息，基于反馈信息能够得到自动驾驶下一步的动作；接着根据设计的损失函数与强化学习的奖励函数，利用获取的城市场景下车辆的环境数据构建的训练样本对自动驾驶控制模型进行训练，直到模型收敛；最后利用训练好的自动驾驶控制模型进行自动驾驶控制。本发明的方法可以大大改善自动驾驶的性能。权利要求书2页说明书9页附图2页 CN 115303297 A 2022.11.08 CN 115303297 A 1.基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，其特征在于，包括： S1：搭建仿真环境，通过传感器获取车辆以及周围的图像数据，通过激光雷达获取激光雷达数据，将图像数据和激光雷达数据作为城市场景下车辆的环境数据； S2：构建自动驾驶控制模型，该模型包括特征提取模块、感知模块和强化学习模块，其中，特征提取模块用于采用注意力机制对输入的环境数据进行特征提取和融合得到融合后的特征，感知模块用于基于概率图模型网络根据融合后的特征得到环境信息的编码特征，强化学习模块用于根据环境信息的编码特征进行城市场景中自动驾驶的学习，得到反馈信息，基于反馈信息能够得到自动驾驶下一步的动作； S3：根据设计的损失函数与强化学习的奖励函数，利用获取的城市场景下车辆的环境数据构建的训练样本对自动驾驶控制模型进行训练，直到模型收敛； S4：利用训练好的自动驾驶控制模型进行自动驾驶控制。 2.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，其特征在于，步骤S1包括： S1.1：搭建端到端自动驾驶的仿真环境，在Carla仿真器中，搭建城市道路场景； S1.2：在搭建的城市道路场景中设置预设数量的基于规则的车辆，并让设置的车辆随机出现在城市道路场景中； S1.3：构建车辆的自动驾驶代理和通信模块，在车辆上搭载摄像头和激光雷达，将搭载的摄像头获取的图像数据、激光雷达获取的激光雷达数据通过通信模块反馈给自动驾驶代理。 3.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，其特征在于，在步骤S1之后，所述方法还包括对图像数据和激光雷达数据进行预处理，具体为：将图像数据进行裁剪得到64*64分辨率的图像，将激光雷达点云投影到地平面，并裁剪得到64*64分辨率的图像。 4.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，其特征在于，特征提取模块包括4个卷积层和3个注意力层，每一个卷积模块包括两个卷积层和注意力层，步骤S2的自动驾驶控制模型，特征提取模块的处理过程包括：将激光雷达数据经过处理后得到图像与传感器获取的图像一起输入到第一个卷积层中分别得到 64*64*64的特征，将第一个卷积层输出的特征输入第一个注意力层，通过注意力机制处理分别得到对应的特征图，然后输入第二个卷积层中分别得到 32*32*128的特征；将第二个卷积层得到的特征输入第二个注意力层，通过注意力机制处理分别得到对应的特征图，再输入到第三个卷积层中分别得到16 *16*256的特征；将第三个卷积层得到的特征输入第三个注意力层，通过注意力机制处理分别得到对应的特征图，然后输入到第四个卷积层中分别得到8*8* 512的特征；通过concat将第四个卷积层得到的8*8*512的图像的特征和激光雷达的特征进行拼接，得到融合后的特征。 5.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾权　利　要　求　书 1/2 页 2 CN 115303297 A 2驶控制方法，其特征在于，步骤S2的自动驾驶控制模型中，感知模块得到的环境信息的编码特征为下一时间步的状态。 6.基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制装置，其特征在于，包括：数据获取模块，用于搭建仿真环境，通过传感器获取车辆以及周围的图像数据，通过激光雷达获取激光雷达数据，将图像数据和激光雷达数据作为城市场景下车辆的环境数据；模型构建模块，用于构建自动驾驶控制模型，该模型包括特征提取模块、感知模块和强化学习模块，其中，特征提取模块用于采用注意力机制对输入的环境数据进行特征提取和融合得到融合后的特征，感知模块用于基于概率图模型网络根据融合后的特征得到环境信息的编码特征，强化学习模块用于根据环境信息的编码特征进行城市场景中自动驾驶的学习，得到反馈信息，基于反馈信息能够得到自动驾驶下一步的动作；模型训练模块，用于根据设计的损失函数与强化学习的奖励函数，利用获取的城市场景下车辆的环境数据构建的训练样本对自动驾驶控制模型进行训练，直到模型收敛；模型应用模块，用于利用训练好的自动驾驶控制模型进行自动驾驶控制。 7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至 5中任一项权利要求所述的方法。 8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项权利要求所述的方法。权　利　要　求　书 2/2 页 3 CN 115303297 A 3

专利 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置

专利基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置