专利基于空间置信度图的多轮多模态多智能体的协同感知方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211076556.X (22)申请日 2022.09.05 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人陈思衡　胡悦　周卓敏　 (74)专利代理机构上海恒慧知识产权代理事务所(特殊普通合伙) 31317 专利代理师徐红银　张琳 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/25(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于空间置信度图的多轮多模态多智能体的协同感知方法 (57)摘要本发明提供一个基于空间置信度图的多轮多模态多智能体的协同感知方法、系统、终端及介质，包括使用深度卷积神经网络提取输入数据的特征；对所述特征使用空间置信度生成器生成空间置信度图；使用基于所述空间置信度图的通信模块，打包紧凑的信息包，构建稀疏的通信图，并通过所述通信图在智能体间传递所述信息包；使用基于空间置信度图的信息融合模块，将通信模块收获的信息包与每个智能体本地的特征进行融合；将融合的特征解码获得检测结果。本发明通过专注于感知关键区域，使用更少的通信消耗来实现更高的感知性能；适应各种通信带宽和轮次。权利要求书3页说明书9页附图1页 CN 115471666 A 2022.12.13 CN 115471666 A 1.一个基于空间置信度图的多轮多模态多智能体的协同感知方法，其特征在于，包括：使用深度卷积神经网络提取输入数据的特征；对所述特征使用空间置信度生成器生成空间置信度图；使用基于所述空间置信度图的通信模块，打包紧凑的信息包，构建稀疏的通信图，并通过所述通信图在智能体间传递所述信息包；使用基于空间置信度图的信息融合模块，将所述通信模块收获的信息包与每个智能体本地的特征进行融合；将融合的特征解码获得检测结果。 2.根据权利要求1所述的一个基于空间置信度图的多轮多模态多智能体的协同感知方法，其特征在于，所述使用深度卷积神经网络提取输入数据的特征，包括：用深度卷积神经网络从第i个智能体的输入数据中提取特征为其中Φenc(·)是用深度卷积神经网络实现的编码函数，上标0表示该特征在通信前获得， H,W,D分别是特征图的长度、宽度和通道维度。 3.根据权利要求2所述的一个基于空间置信度图的多轮多模态多智能体的协同感知方法，其特征在于，所述对特征使用空间置信度生成器生成空间置信度图，包括：使用与检测解码器相同结构的网络，根据提取的特征生成在第k轮通信时的空间置信度图：其中， Φgenerator(·)是检测解码器，是第k轮通信时的空间置信度图，是第i个智能体第k轮通信时的特征。 4.根据权利要求3所述的一个基于空间置信度图的多轮多模态多智能体的协同感知方法，其特征在于，所述使用基于空间置信度图的通信模块，打包紧凑的信息包，构建稀疏的通信图，并通过通信图在智能体间传递信息包，包括：基于空间置信度图打包信息包，所述信息包由两个部分组成，一部分为用于帮助其他智能体的特征信息，另一部分为每个智能体需要的信息请求图；其中， k表示通信轮次，表示智能体i的信息请求图，表示从智能体i 发送给智能体j的特征，表示从智能体i发送给智能体j的信息包；在第k轮通信中智能体i的信息请求图由空间置信度图决定，在第k轮通信中从智能体i发送给智能体j的特征信息由二元选择矩阵和提取的特征决定，权　利　要　求　书 1/3 页 2 CN 115471666 A 2其中二元选择矩阵利用空间置信图和信息请求图来选择特征中信息量最大的空间区域，其中，⊙代表元素相乘，是第j个智能体在上一轮的信息请求图，第i个智能体的空间置信度图，函数Φselect(·)基于输入矩阵选择最关键的通信区域；基于所述选择矩阵构建通信图，表示为邻接矩阵其中是在第k轮通信中从智能体i与智能体j间的有向通信边，空间维度和特征图一致， h,w分别表示空间的长度和宽度，其中i为发送端， j为接收端， 1表示构建通信， 0表示不构建通信。 5.根据权利要求4所述的一个基于空间置信度图的多轮多模态多智能体的协同感知方法，其特征在于，所述使用基于空间置信度图的信息融合模块，将通信模块收获的信息包与每个智能体本地的特征进行融合，包括：对第i个智能体，在接收到第j个智能体的消息后，解码得到特征和空间置信度图在第k轮通信时第i个智能体融合第j个智能体的特征的融合权值为其中MHAW(·,·,·)是单独应用于每个空间位置的多头注意力网络,输入为智能体i的特征以及从接收的信息包中解码得到的第j个智能体的特征信息输出为基于特征相似度计算得到的注意力权重；基于所述注意力权重进行特征融合和更新，第 i个智能体在第k轮通信中融合信息后的特征图为其中， FFN( ·)是前馈网络，由多层感知机实现，是通信图A(k)定义的第i个智能体的邻居，即向智能体i发送信息的智能体集合，融合后的特征为在第k+1轮通信中第i个智能体的特征。 6.根据权利要求5所述的一个基于空间置信度图的多轮多模态多智能体的协同感知方权　利　要　求　书 2/3 页 3 CN 115471666 A 3

专利 基于空间置信度图的多轮多模态多智能体的协同感知方法

专利基于空间置信度图的多轮多模态多智能体的协同感知方法