专利一种基于音视协同的无人飞行器追踪识别方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211019458.2 (22)申请日 2022.08.24 (71)申请人大连赛听科技有限公司地址 116000 辽宁省大连市高新技术产业园区火炬路5 6A-22层2211-2室 (72)发明人代金良　胡晓宇　刘广威　杨猛　 (74)专利代理机构合肥市浩智运专利代理事务所(普通合伙) 34124 专利代理师朱文振 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G10L 25/30(2013.01) G10L 25/51(2013.01) G06T 7/70(2017.01)G06T 7/246(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于音视协同的无人飞行器追踪识别方法及系统 (57)摘要本发明提供一种基于音视协同的无人飞行器追踪识别方法及系统，方法包括：预先训练音频初判模型、音频二次判决模型、图像初判模型、图像二次判决模型；声传感器阵列和摄像头分别拾取音频数据、图像数据；初次判决模式选择，并使用所选择的数据使用对应的识别模型进行初次判决；如监控区域有无人飞行器，进行二次判决模式选择，并根据模式选择的结果，分别使用音频及视频数据，以及对应的二次识别模型进行二次判决，得到是否有飞行器出现以及其方位角；如果有飞行器出现，则将其方位角按时间排列得目标轨迹。本发明解决了由于盲区及干扰等因素导致探测效果差以及适用性较低的技术问题。权利要求书4页说明书11页附图3页 CN 115359329 A 2022.11.18 CN 115359329 A 1.一种基于音视协同的无人飞行器追踪识别方法，其特征在于，所述方法包括： S1、预训练获取一次判决预训练图像CNN异物识别模型、一次判决预训练音频CNN异物识别模型、二次判决预训练图像CNN异物识别模型及二次判决预训练音频CNN异物识别模型，根据预设模式选择机制，选择图像识别模式及声音信号识别模式中选定追踪识别模式，以初次识别预置监测区域内是否出现疑似无人飞行器； S2、在采用所述图像识别模式进行初次识别时，以摄像头采集视野内图像，据以利用所述一次判决预训练图像CN N异物识别模型进行初次判决操作； S3、在采用所述声音识别模式进行初次识别时，以声传感器阵列拾取声音信号，据以利用所述一次判决预训练音频CN N异物识别模型进行初次识别操作； S4、在初次识别判定所述预置监测区域内出现所述疑似无人飞行器时，启动二次判决操作； S5、采用二次判决模式选择机制确定二次判决的工作模式； S6、在选择采用所述图像识别模式进行所述二次判决时，以所述摄像头采集二次视野内图像，利用所述二次判决预训练图像CNN异物识别模型进行二次判决操作，其中，二次判决结果包括：当前帧图像飞行器方位数据； S7、在确定二次判决采用声音信号识别模式时，则使用所述二次判决预训练音频CNN异物识别模型对声传感器阵列拾取的声音信号特征进行深度特征提取和识别，以识别出疑似无人飞行器是否确实为无人飞行器，并且计算出实时的方位； S8、在选择同时采用所述声音信号识别模式及所述图像识别模式进行二次判决操作时，使用图像判决模块处理获取飞行器图像位置，使用声音判决模块通过声源定位计算得到飞行器方位，加权融合所述飞行器图像位置及所述飞行器方位，以得到双模式融合判决方位结果； S9、利用卡尔曼滤波对所述双模式融合判决方位结果进行平滑处理，据以得到目标飞行运动轨迹。 2.根据权利要求1所述的一种基于音视协同的无人飞行器追踪识别方法，其特征在于，所述步骤S1包括： S11、获取并根据图像采集数据的色度分量判断是否出现过度曝光或者光线不足； S12、若是，则判定使用音频数据进行初次判决； S13、若否，则取一路声音信号，据以利用下述逻辑计算历史检测结果中未出现无人机的声音信号的长时平均功率： Pnul＝0.99*Pnul+0.01*|Snul(n)| 其中， n＝0， 1，……N‑1；利用下述逻辑计算当前声音信号的平均功率并与所述长时平均功率进行比较： Pcur＝0.75*Pcur+0.25*|S(n)|，其中n ＝0， 1，……N‑1； S14、判断所述当前声音信号的平均功率Pcur是否超过0.2倍的所述历史声音信号的长时平均功率Pnul； S15、若是，则选择使用所述音频数据进行初次判决； S16、若否，则使用图像进行初次判决。 3.根据权利要求1所述的一种基于音视协同的无人飞行器追踪识别方法，其特征在于，权　利　要　求　书 1/4 页 2 CN 115359329 A 2所述步骤S2包括： S21、以下述逻辑处理所述图像数据，以得到在(2*n+1)(2*m+1)的窗口内的局部均值：以下述逻辑处理所述图像数据，以得到局部均方差：其中， M*N代表摄像头拾取的图像数据大小， x(i， j)为模板中心的灰度值； S22、利用下述逻辑处理所述局部均值及所述局部均方差，以得到增强去噪图像： S23、采用所述预训练CNN异物识别模型对所述增强去噪图像进行异物检测，据以检测获取正常图像数据及异物图像数据，据以判定存在异物，其中，所述一次判决预训练图像 CNN异物识别模型包括：不少于2层的卷积层、全连接网络，以第一层所述卷积层处理所述图像数据以得到提取特征，以下一层所述卷积层池化所述提取特征，以获取二维降低维度特征；拆分并拼接不少于2组的所述二维降低维度特征，据以得到拆分拼接向量，以全连接网络处理所述拆分拼接向量，输出图像初次判决结果。 4.根据权利要求1所述的一种基于音视协同的无人飞行器追踪识别方法，其特征在于，所述步骤S3包括： S31、使用64颗麦克风面阵采集声音信号； S32、采用预置采样率对所述声音信号进行采样，从所述声音信号中截取出N个采样点作为单帧输入数据； S33、统计这N个所述单帧输入数据的均值和方差，以利用下述逻辑标准化处理所述单帧输入数据：其中， s为输入的时间序列， m为均值， σ 为序列的标准差。 S34、任意选择一个通道的数据作为参考向量，利用下述逻辑将所有通道的所述单帧输入数据与参考通道计算互相关，以得到音频互相关矩阵： S35、所述一次判决预训练图像CNN异物识别模型包括不少于2层的卷积层、全连接网络，将所述音频互相关矩阵输入至第一层所述卷积层，以处理得到音频提取特征并利用下一层所述卷积层进行池化，据以得到音频降低维度特征，拆分拼接不少于2组的音频提取特征，以得到音频拆分拼接向量，利用所述全连接网络处理所述拆分拼接向量，据以获取音频初次判决结果。 5.根据权利要求1所述的一种基于音视协同的无人飞行器追踪识别方法，其特征在于，所述步骤S5包括： S51、根据图像数据的色度分量判断是否出现过度曝光或光线严重不足；权　利　要　求　书 2/4 页 3 CN 115359329 A 3

专利 一种基于音视协同的无人飞行器追踪识别方法及系统

专利一种基于音视协同的无人飞行器追踪识别方法及系统