全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210876472.8 (22)申请日 2022.07.25 (71)申请人 武汉理工大 学 地址 430070 湖北省武汉市洪山区珞狮路 122号 (72)发明人 陆丽萍 朱万杰  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 罗飞 (51)Int.Cl. B60W 60/00(2020.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于注意力机制与图模型强化学习的城市 场景下端到端自动驾驶控制方法及装置 (57)摘要 本发明公开了一种基于注意力机制与图模 型强化学习的城市场景下端到端自动驾驶控制 方法及装置, 其中的方法首先搭建仿真环境, 获 取城市场景下车辆的环境数据; 然后构建自动驾 驶控制模型, 通过感知模块用于基于概率图模型 网络根据融合后的特征得到环境信息的编码特 征, 强化学习模块用于根据环 境信息的编码特征 进行城市场景中自动驾驶的学习, 得到反馈信 息, 基于反馈信息能够得到自动驾驶下一步的动 作; 接着根据设计的损失函数与强化学习的奖励 函数, 利用获取的城市场景下车辆的环境数据构 建的训练样 本对自动驾驶控制模 型进行训练, 直 到模型收敛; 最后利用训练好的自动驾驶控制模 型进行自动驾驶控制。 本发明的方法可以大大改 善自动驾驶的性能。 权利要求书2页 说明书9页 附图2页 CN 115303297 A 2022.11.08 CN 115303297 A 1.基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法, 其特征 在于, 包括: S1: 搭建仿真环境, 通过传感器获取车辆以及周围的图像数据, 通过激光雷达获取激光 雷达数据, 将图像数据和激光雷达数据作为城市场景 下车辆的环境数据; S2: 构建自动驾驶控制模型, 该模型包括特征提取模块、 感知模块和 强化学习模块, 其 中, 特征提取模块用于采用注意力机制对输入的环境数据进 行特征提取和融合得到融合后 的特征, 感知模块用于基于概率图模型网络根据融合后的特征得到环境信息的编码特征, 强化学习模块用于根据环境信息的编 码特征进行城市场景中 自动驾驶的学习, 得到反馈信 息, 基于反馈信息能够得到自动驾驶下一 步的动作; S3: 根据设计的损失函数与强化学习的奖励函数, 利用获取的城市场景下车辆的环境 数据构建的训练样本对自动驾驶控制模型进行训练, 直到模型收敛; S4: 利用训练好的自动驾驶控制模型进行自动驾驶控制。 2.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾 驶控制方法, 其特 征在于, 步骤S1包括: S1.1: 搭建端到端自动驾驶的仿真环境, 在Carla仿真器中, 搭建城市道路场景; S1.2: 在搭建的城市道路场景中设置预设数量的基于规则的车辆, 并让设置的车辆随 机出现在城市道路场景中; S1.3: 构建车辆的自动驾驶代理和通信模块, 在车辆上搭载摄像头和激光雷达, 将搭载 的摄像头获取的图像数据、 激光雷达获取的激光雷达数据通过通信模块反馈给自动 驾驶代 理。 3.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾 驶控制方法, 其特征在于, 在步骤S1之后, 所述方法还包括对图像数据和激光雷达数据进 行 预处理, 具体为: 将图像数据进行裁 剪得到64*64分辨率的图像, 将激光雷达点云投影到地平面, 并裁 剪得到64*64分辨率的图像。 4.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾 驶控制方法, 其特征在于, 特征提取模块包括4个卷积层和3个注 意力层, 每一个卷积模块包 括两个卷积层和注意力层, 步骤S2的自动驾驶控制模型, 特 征提取模块的处 理过程包括: 将激光雷达数据经过处理后得到图像与传感器获取的图像一起输入到第一个卷积层 中分别得到 64*64*64的特征, 将第一个卷积层输出的特征输入第 一个注意力层, 通过注意力 机制处理分别得到对应 的特征图, 然后输入第二个卷积层中分别得到 32*32*128的特 征; 将第二个卷积层得到的特征输入第 二个注意力层, 通过注意力 机制处理分别得到对应 的特征图, 再输入到第三个卷积层中分别得到16 *16*256的特征; 将第三个卷积层得到的特征输入第 三个注意力层, 通过注意力 机制处理分别得到对应 的特征图, 然后输入到第四个卷积层中分别得到8*8* 512的特征; 通过concat将第四个卷积层得到的8*8*512的图像的特征和激光雷达的特征进行拼 接, 得到融合后的特 征。 5.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾权 利 要 求 书 1/2 页 2 CN 115303297 A 2驶控制方法, 其特征在于, 步骤S2的自动驾驶控制模型中, 感知模块得到的环 境信息的编码 特征为下一时间步的状态。 6.基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制装置, 其特征 在于, 包括: 数据获取模块, 用于搭建仿真环境, 通过传感器获取车辆以及周围的图像数据, 通过激 光雷达获取激光雷达数据, 将图像数据和激光雷达数据作为城市场景 下车辆的环境数据; 模型构建模块, 用于构建 自动驾驶控制模型, 该模型包括特征提取模块、 感知模块和强 化学习模块, 其中, 特征提取模块用于采用注意力机制对输入的环境数据进行特征提取和 融合得到融合后的特征, 感知 模块用于基于概率图模型网络根据融合后的特征得到环境信 息的编码特征, 强化学习模块用于根据环境信息的编 码特征进行城市场景中 自动驾驶的学 习, 得到反馈信息, 基于反馈信息能够得到自动驾驶下一 步的动作; 模型训练模块, 用于根据设计的损 失函数与强化学习的奖励函数, 利用获取的城市场 景下车辆的环境数据构建的训练样本对自动驾驶控制模型进行训练, 直到模型收敛; 模型应用模块, 用于利用训练好的自动驾驶控制模型进行自动驾驶控制。 7.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被执行时实 现如权利要求1至 5中任一项权利要求所述的方法。 8.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至5中任一项权利要 求所述的方法。权 利 要 求 书 2/2 页 3 CN 115303297 A 3

.PDF文档 专利 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置 第 1 页 专利 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置 第 2 页 专利 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:14:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。