专利一种数据处理方法、装置及设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111523107.0 (22)申请日 2021.12.13 (71)申请人上海高德威智能交通系统有限公司地址 201821 上海市嘉定区云谷路59 9弄6 号620室J 1452 (72)发明人刘珂瑞　唐三立　 (74)专利代理机构北京博思佳知识产权代理有限公司 1 1415 代理人王剑 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种数据处理方法、装置及设备 (57)摘要本申请提供一种数据处理方法、装置及设备，该方法包括：获取无标签数据集，无标签数据集包括多个无标签数据，无标签数据对应多个伪标签；针对每个基础模型，从无标签数据集中选取基础模型对应的目标无标签数据；针对无标签数据集中每个无标签数据，基于该无标签数据对应的多个伪标签，确定该无标签数据针对基础模型的第一不确定度、该无标签数据针对基础模型之外的剩余基础模型的第二不确定度；基于第一不确定度和第二不确定度确定该无标签数据是基础模型对应的目标无标签数据或不是基础模型对应的目标无标签数据；基于基础模型对应的目标无标签数据对基础模型进行训练，得到目标模型。通过本申请的技术方案，能够节约人力资源，减少标定时间。权利要求书3页说明书16页附图3页 CN 114298173 A 2022.04.08 CN 114298173 A 1.一种数据处理方法，其特征在于，所述方法包括：获取无标签数据集，所述无标签数据集包括多个无标签数据；针对每个无标签数据，该无标签数据对应多个伪标签，所述多个伪标签是将该无标签数据输入给多个基础模型后，由所述多个基础模型输出的伪标签；针对每个基础模型，从所述无标签数据集中选取所述基础模型对应的目标无标签数据；其中，针对无标签数据集中每个无标签数据，基于该无标签数据对应的多个伪标签，确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度；基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据，或不是所述基础模型对应的目标无标签数据；基于所述基础模型对应的目标无标签数据对所述基础模型进行训练，得到已训练的目标模型；其中，所述目标模型用于对应用数据进行数据处理。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：针对所述无标签数据集中每个无标签数据，对该无标签数据进行A次数据增广，得到A 个数据增广后的无标签数据，所述A为正整数；针对每个数据增广后的无标签数据，将该数据增广后的无标签数据输入给多个基础模型，由所述多个基础模型输出与该无标签数据对应的伪标签。 3.根据权利要求1所述的方法，其特征在于，所述基于该无标签数据对应的多个伪标签，确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度，包括：将该无标签数据对应的多个伪标签划分到第一伪标签集合和第二伪标签集合；其中，第一伪标签集合中的伪标签是由所述基础模型输出的伪标签，第二伪标签集合中的伪标签是由所述基础模型之外的剩余基础模型输出的伪标签；基于所述第一伪标签集合中各伪标签对应的置信度确定所述第一不确定度；基于所述第二伪标签集合中各伪标签对应的置信度确定所述第二不确定度。 4.根据权利要求3所述的方法，其特征在于，所述基于所述第一伪标签集合中各伪标签对应的置信度确定所述第一不确定度，包括：基于所述第一伪标签集合中各伪标签对应的置信度确定第一平均值的熵，基于所述第一伪标签集合中各伪标签对应的置信度确定第一熵的平均值；基于所述第一平均值的熵和所述第一熵的平均值确定所述第一不确定度；所述基于所述第二伪标签集合中各伪标签对应的置信度确定所述第二不确定度包括：基于所述第二伪标签集合中各伪标签对应的置信度确定第二平均值的熵，基于所述第二伪标签集合中各伪标签对应的置信度确定第二熵的平均值；基于所述第二平均值的熵和所述第二熵的平均值确定所述第二不确定度。 5.根据权利要求1或3所述的方法，其特征在于，所述基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据，或不是所述基础模型对应的目标无标签数据，包括：基于所述第一不确定度和所述第二不确定度之间的差值，确定该无标签数据针对所述基础模型和所述剩余基础模型的不确定度差；权　利　要　求　书 1/3 页 2 CN 114298173 A 2若所述不确定度差大于第一阈值，则确定该无标签数据是所述基础模型对应的目标无标签数据；或者，若所述不确定度差不大于所述第一阈值，则确定该无标签数据不是所述基础模型对应的目标无标签数据。 6.根据权利要求3所述的方法，其特征在于，所述基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据，或不是所述基础模型对应的目标无标签数据，包括：基于所述第一不确定度和所述第二不确定度之间的差值，确定该无标签数据针对所述基础模型和所述剩余基础模型的不确定度差；基于所述第二伪标签集合中各伪标签对应的置信度确定平均置信度；若所述不确定度差大于第一阈值，且所述平均置信度大于第二阈值，则确定该无标签数据是所述基础模型对应的目标无标签数据；若所述不确定度差不大于第一阈值，和/或所述平均置信度不大于第二阈值，则确定该无标签数据不是所述基础模型对应的目标无标签数据。 7.根据权利要求1所述的方法，其特征在于，所述基于所述基础模型对应的目标无标签数据对所述基础模型进行训练，得到已训练的目标模型，包括：基于所述基础模型对应的目标无标签数据对应的多个伪标签，生成所述目标无标签数据对应的目标伪标签；基于所述目标无标签数据和所述目标伪标签对所述基础模型进行训练，得到已训练的所述目标模型。 8.一种数据处理装置，其特征在于，所述装置包括：获取模块，用于获取无标签数据集，所述无标签数据集包括多个无标签数据；针对每个无标签数据，该无标签数据对应多个伪标签，所述多个伪标签是将该无标签数据输入给多个基础模型后，由所述多个基础模型输出的伪标签；确定模块，用于针对每个基础模型，从所述无标签数据集中选取所述基础模型对应的目标无标签数据；其中，针对无标签数据集中每个无标签数据，基于该无标签数据对应的多个伪标签，确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度；基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据，或不是所述基础模型对应的目标无标签数据；训练模块，用于基于基础模型对应的目标无标签数据对所述基础模型进行训练，得到已训练的目标模型；所述目标模型用于对应用数据进行数据处理。 9.根据权利要求8所述的装置，其特征在于，其中，所述获取模块，还用于针对所述无标签数据集中每个无标签数据，对该无标签数据进行A次数据增广，得到A个数据增广后的无标签数据， A为正整数；针对每个数据增广后的无标签数据，将该数据增广后的无标签数据输入给多个基础模型，由所述多个基础模型输出与该无标签数据对应的伪标签；其中，所述确定模块基于该无标签数据对应的多个伪标签，确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度时具体用于：将该无标签数据对应的多个伪标签划分到第一伪标签集合和第二伪标签集合；其中，所述第一伪标签集合中的伪标签是由所述基础模型输出的伪标签，所述第权　利　要　求　书 2/3 页 3 CN 114298173 A 3

专利 一种数据处理方法、装置及设备

专利一种数据处理方法、装置及设备