专利 一种认知地图构建方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210614375.1 (22)申请日 2022.05.31 (71)申请人中国电信股份有限公司地址 100033 北京市西城区金融大街31号 (72)发明人杨明川　王昊　李伟　白亮　刘振华　 (74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙) 11413 专利代理师马敬　项京 (51)Int.Cl. B25J 9/16(2006.01) B25J 19/02(2006.01) (54)发明名称一种认知地图构建方法和装置 (57)摘要本公开实施例提供了一种认知地图构建方法和装置，涉及人工智能技术领域。获取历史时间段内目标场景的待处理图像流；基于视觉里程计算法处理待处理图像流，得到机器人在多个历史时刻的线速度和角速度；将每一历史时刻的线速度输入至网格细胞环状吸引子模型，得到表征每一历史时刻机器人位置的位置特征，将每一历史时刻的角速度输入至头朝向细胞模型，得到表征每一历史时刻机器人姿态的姿态特征；基于 Vision Transformer网络模型对待处理图像流进行特征提取，得到待处理图像流中每一历史时刻对应的图像帧的第一图像特征；基于得到的位置特征、姿态特征和第一图像特征，生成目标场景的认知地图，提高认知地图的准确度。权利要求书3页说明书12页附图4页 CN 114952847 A 2022.08.30 CN 114952847 A 1.一种认知地图构建方法，其特征在于，所述方法应用于机器人，所述方法包括：在所述机器人行驶过程中，获取历史时间段内目标场景的图像流，作为待处理图像流；基于视觉里程计算法，对所述待处理图像流进行处理，得到所述机器人在所述历史时间段内多个历史时刻的线速度和角速度；将每一历史时刻的线速度输入至网格细胞环状吸引子模型，得到表征每一历史时刻所述机器人位置的位置特征，以及将每一历史时刻的角速度输入至头朝向细胞模型，得到表征每一历史时刻所述机器人姿态的姿态特征；基于计算机视觉处理Vision Transformer网络模型对所述待处理图像流进行特征提取，得到所述待处理图像流中每一历史时刻对应的图像帧的图像特征，作为第一图像特征；基于得到的位置特征、姿态特征和第一图像特征，生成所述目标场景的认知地图。 2.根据权利要求1所述的方法，其特征在于，所述基于得到的位置特征、姿态特征和第一图像特征，生成所述目标场景的认知地图，包括：生成多个认知节点；其中，一个认知节点包括对应的历史时刻的位置特征、姿态特征和第一图像特征；根据闭环更新算法对所述多个认知节点进行更新，得到所述目标场景的认知地图。 3.根据权利要求1所述的方法，其特征在于，所述在所述机器人行驶过程中，获取历史时间段内目标场景的图像流，作为待处理图像流，包括：在所述机器人行驶过程中，获取机器人的拍摄视角下目标场景的图像流，作为待处理图像流。 4.根据权利要求1所述的方法，其特征在于，所述在所述机器人行驶过程中，获取历史时间段内目标场景的图像流，作为待处理图像流，包括：在所述机器人行驶过程中，获取机器人的拍摄视角下目标场景的图像流，作为初始图像流；针对所述初始图像流中的每一初始图像帧，对该初始图像帧进行语义分割，得到第一语义分割图像；对第一语义分割图像进行特征提取，得到第二图像特征；基于所述第一语义分割图像和该初始图像帧对应的深度图像，得到对应的点云图像，并对所述点云图像进行特征提取，得到第三图像特征；基于指定位置信息，对所述第三图像特征和第二图像特征进行特征融合，得到第二语义分割图像；其中，所述指定位置信息表示：指定空间位置与所述机器人采集该初始图像帧时的位置之间的偏转角度和距离；对该初始图像帧对应的第二语义分割图像和该初始图像帧进行特征融合，得到第四图像特征；将所述第四图像特征输入至图像生成网络，得到以所述指定空间位置为监测视角的预测图像帧；将包含各初始图像帧对应的预测图像帧的图像流，作为待处理图像流。 5.根据权利要求1所述的方法，其特征在于，所述基于计算机视觉处理Vision Transformer网络模型对所述待处理图像流进行特征提取，得到所述待处理图像流中每一历史时刻对应的图像帧的图像特征，作为第一图像特征，包括：权　利　要　求　书 1/3 页 2 CN 114952847 A 2针对所述待处理图像流中每一历史时刻对应的图像帧，将该图像帧划分为多个图像块；将所述多个图像块、每一图像块的位置编码，以及该图像帧中包含的对象的类别编码，输入至Visi on Transformer网络模型，得到该图像帧的第一图像特征。 6.一种认知地图构建装置，其特征在于，所述装置应用于机器人，所述装置包括：图像流获取模块，用于在所述机器人行驶过程中，获取历史时间段内目标场景的图像流，作为待处理图像流；视觉里程计模块，用于基于视觉里程计算法，对所述待处理图像流进行处理，得到所述机器人在所述历史时间段内多个历史时刻的线速度和角速度；认知模块，用于将每一历史时刻的线速度输入至网格细胞环状吸引子模型，得到表征每一历史时刻所述机器人位置的位置特征，以及将每一历史时刻的角速度输入至头朝向细胞模型，得到表征每一历史时刻所述机器人姿态的姿态特征；视觉特征表征模块，用于基于计算机视觉处理Vision Transformer网络模型对所述待处理图像流进行特征提取，得到所述待处理图像流中每一历史时刻对应的图像帧的图像特征，作为第一图像特征；场景建图模块，用于基于得到的位置特征、姿态特征和第一图像特征，生成所述目标场景的认知地图。 7.根据权利要求6所述的装置，其特征在于，所述场景建图模块，包括：认知节点生成子模块，用于生成多个认知节点；其中，一个认知节点包括对应的历史时刻的位置特征、姿态特征和第一图像特征；认知地图更新子模块，用于根据闭环更新算法对所述多个认知节点进行更新，得到所述目标场景的认知地图。 8.根据权利要求6所述的装置，其特征在于，所述图像流获取模块，具体用于在所述机器人行驶过程中，获取机器人的拍摄视角下目标场景的图像流，作为待处理图像流。 9.根据权利要求6所述的装置，其特征在于，所述图像流获取模块，具体用于：在所述机器人行驶过程中，获取机器人的拍摄视角下目标场景的图像流，作为初始图像流；针对所述初始图像流中的每一初始图像帧，对该初始图像帧进行语义分割，得到第一语义分割图像；对第一语义分割图像进行特征提取，得到第二图像特征；基于所述第一语义分割图像和该初始图像帧对应的深度图像，得到对应的点云图像，并对所述点云图像进行特征提取，得到第三图像特征；基于指定位置信息，对所述第三图像特征和第二图像特征进行特征融合，得到第二语义分割图像；其中，所述指定位置信息表示：指定空间位置与所述机器人采集该初始图像帧时的位置之间的偏转角度和距离；对该初始图像帧对应的第二语义分割图像和该初始图像帧进行特征融合，得到第四图像特征；将所述第四图像特征输入至图像生成网络，得到以所述指定空间位置为监测视角的预测图像帧；权　利　要　求　书 2/3 页 3 CN 114952847 A 3

专利 一种认知地图构建方法和装置

专利一种认知地图构建方法和装置