全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111523107.0 (22)申请日 2021.12.13 (71)申请人 上海高德威智能交通系统有限公司 地址 201821 上海市嘉定区云谷路59 9弄6 号620室J 1452 (72)发明人 刘珂瑞 唐三立  (74)专利代理 机构 北京博思佳知识产权代理有 限公司 1 1415 代理人 王剑 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种数据处 理方法、 装置及设备 (57)摘要 本申请提供一种数据处理方法、 装置及设 备, 该方法包括: 获取无标签数据集, 无标签数据 集包括多个无标签数据, 无标签数据对应多个伪 标签; 针对每个基础模型, 从无标签数据集中选 取基础模型对应的目标无标签数据; 针对无标签 数据集中每个无标签数据, 基于该无标签数据对 应的多个伪标签, 确定该无标签数据针对基础模 型的第一不确定度、 该无标签数据针对基础模型 之外的剩余基础模型的第二不确定度; 基于第一 不确定度和第二不确定度确定该无标签数据是 基础模型对应的目标无标签数据或不是基础模 型对应的目标无标签数据; 基于基础模型对应的 目标无标签数据对基础模型进行训练, 得到目标 模型。 通过本申请的技术方案, 能够节约人力资 源, 减少标定时间。 权利要求书3页 说明书16页 附图3页 CN 114298173 A 2022.04.08 CN 114298173 A 1.一种数据处 理方法, 其特 征在于, 所述方法包括: 获取无标签数据集, 所述无标签数据集包括多个无标签数据; 针对每个无标签数据, 该 无标签数据对应多个伪标签, 所述多个伪标签是将该无标签数据输入给多个基础模型后, 由所述多个 基础模型输出的伪标签; 针对每个基础模型, 从所述无标签数据集中选取所述基础模型对应的目标无标签数 据; 其中, 针对无标签数据集中每个无标签数据, 基于该无标签数据对应的多个伪标签, 确 定该无标签数据针对所述基础 模型的第一不确定度、 该无标签数据针对所述基础模型之外 的剩余基础 模型的第二不确定度; 基于所述第一不确定度和所述第二不确定度确定该无标 签数据是所述基础 模型对应的目标无标签数据, 或不是所述基础模型对应的目标无标签数 据; 基于所述基础模型对应的目标无标签数据对所述基础模型进行训练, 得到已训练的目 标模型; 其中, 所述目标模型用于对应用数据进行 数据处理。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 针对所述无标签数据集中每个无标签数据, 对该无标签数据进行A次数据增广, 得到A 个数据增广后的无 标签数据, 所述A为 正整数; 针对每个数据增广后的无标签数据, 将该数据增广后的无标签数据输入给多个基础模 型, 由所述多个 基础模型输出与该 无标签数据对应的伪标签。 3.根据权利要求1所述的方法, 其特征在于, 所述基于该无标签数据对应的多个伪标 签, 确定该无标签数据针对所述基础模型 的第一不确定度、 该无标签数据针对所述基础模 型之外的剩余基础模型的第二 不确定度, 包括: 将该无标签数据对应的多个伪标签划分到第一伪标签集合和第二伪标签集合; 其中, 第一伪标签集合中的伪标签是由所述基础 模型输出的伪标签, 第二伪标签集合中的伪标签 是由所述基础模型之外的剩余基础模型输出的伪标签; 基于所述第一伪标签集 合中各伪标签对应的置信度确定所述第一 不确定度; 基于所述第二伪标签集 合中各伪标签对应的置信度确定所述第二 不确定度。 4.根据权利要求3所述的方法, 其特 征在于, 所述基于所述第一伪标签集合中各伪标签对应的置信度确定所述第一不确定度, 包 括: 基于所述第一伪标签集合中各伪标签对应的置信度确定第一平均值的熵, 基于所述第 一伪标签集合中各伪标签对应的置信度确定第一熵的平均值; 基于所述第一平均值的熵和 所述第一熵的平均值确定所述第一 不确定度; 所述基于所述第 二伪标签集合中各伪标签对应的置信度确定所述第 二不确定度包括: 基于所述第二伪标签集合中各伪标签对应的置信度确定第二平均值的熵, 基于所述第二伪 标签集合中各伪标签对应的置信度确定第二熵的平均值; 基于所述第二平均值的熵和所述 第二熵的平均值确定所述第二 不确定度。 5.根据权利要求1或3所述的方法, 其特征在于, 所述基于所述第一不确定度和所述第 二不确定度确定该无标签数据是所述基础 模型对应的目标无标签数据, 或不是所述基础模 型对应的目标 无标签数据, 包括: 基于所述第 一不确定度和所述第 二不确定度之间的差值, 确定该无标签数据针对所述 基础模型和所述剩余基础模型的不确定度差;权 利 要 求 书 1/3 页 2 CN 114298173 A 2若所述不确定度差大于第 一阈值, 则确定该无标签数据 是所述基础模型对应的目标无 标签数据; 或者, 若 所述不确定度差不大于所述第一阈值, 则确定该无标签数据不是所述基 础模型对应的目标 无标签数据。 6.根据权利要求3所述的方法, 其特征在于, 所述基于所述第 一不确定度和所述第 二不 确定度确定该无标签数据是所述基础模型对应的目标无标签数据, 或不是所述基础 模型对 应的目标 无标签数据, 包括: 基于所述第 一不确定度和所述第 二不确定度之间的差值, 确定该无标签数据针对所述 基础模型和所述剩余基础模型的不确定度差; 基于所述第二伪标签集 合中各伪标签对应的置信度确定平均置信度; 若所述不确定度差大于第一阈值, 且所述平均置信度大于第二阈值, 则确定该无标签 数据是所述基础模型对应的目标 无标签数据; 若所述不确定度差不大于第 一阈值, 和/或所述平均置信度不大于第 二阈值, 则确定该 无标签数据不是 所述基础模型对应的目标 无标签数据。 7.根据权利要求1所述的方法, 其特征在于, 所述基于所述基础模型对应的目标无标签 数据对所述基础模型进行训练, 得到已训练的目标模型, 包括: 基于所述基础模型对应的目标无标签数据对应的多个伪标签, 生成所述目标无标签数 据对应的目标伪标签; 基于所述目标无标签数据和所述目标伪标签对所述基础 模型进行训 练, 得到已训练的所述目标模型。 8.一种数据处 理装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取无标签数据集, 所述无标签数据集包括多个无标签数据; 针对每个 无标签数据, 该无标签数据对应多个伪标签, 所述多个伪标签是将该无标签数据输入给多 个基础模型后, 由所述多个 基础模型输出的伪标签; 确定模块, 用于针对每个基础模型, 从所述无标签数据集中选取所述基础模型对应的 目标无标签数据; 其中, 针对无标签数据集中每个无标签数据, 基于该无标签数据对应的多 个伪标签, 确定该无标签数据针对所述基础模型 的第一不确定度、 该无标签数据针对所述 基础模型之外的剩余基础模型的第二不确定度; 基于所述第一不确定度和所述第二不确定 度确定该无标签数据是所述基础模型对应的目标无标签数据, 或不是所述基础 模型对应的 目标无标签数据; 训练模块, 用于基于基础模型对应的目标无标签数据对所述基础模型进行训练, 得到 已训练的目标模型; 所述目标模型用于对应用数据进行 数据处理。 9.根据权利要求8所述的装置, 其特 征在于, 其中, 所述获取模块, 还用于针对所述无标签数据集中每个无标签数据, 对该无标签数 据进行A次数据增广, 得到A个数据增广后的无标签数据, A为正整数; 针对每个数据增广后 的无标签数据, 将该数据增广后的无标签数据输入给多个基础模型, 由所述多个基础模型 输出与该 无标签数据对应的伪标签; 其中, 所述确定模块基于该无标签数据对应的多个伪标签, 确定该无标签数据针对所 述基础模型的第一不确定度、 该无标签数据针对所述基础 模型之外的剩余基础 模型的第二 不确定度时具体用于: 将该无标签数据对应的多个伪标签划分到第一伪标签集合和第二伪 标签集合; 其中, 所述第一伪标签集合中的伪标签是由所述基础 模型输出的伪标签, 所述第权 利 要 求 书 2/3 页 3 CN 114298173 A 3

.PDF文档 专利 一种数据处理方法、装置及设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据处理方法、装置及设备 第 1 页 专利 一种数据处理方法、装置及设备 第 2 页 专利 一种数据处理方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:20:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。