全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210908605.5 (22)申请日 2022.07.29 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 陈凤娇 宋秀杰 曹雪智 武威  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 谢冬寒 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 20/62(2022.01)G06V 30/19(2022.01) (54)发明名称 相关性识别模 型的训练方法、 相关性识别方 法及设备 (57)摘要 本申请公开了一种相关性识别模型的训练 方法、 相关性识别方法及设备, 属于计算机技术 领域。 方法包括: 控制神经网络模型确定样本文 本对中的两个样本文本的预测相关性; 从知 识图 谱中采样出任一个样本文本对应的第一文本和 第二文本中的至少一项, 任一个样 本文本对应的 第一文本与任一个样本文本相关, 任一个样本文 本对应的第二文本与任一个样 本文本不相关; 基 于至少一个样本文本对应的第一文本和第二文 本中的至少一项, 以及标注相关性和预测相关 性, 训练神经网络模型得到相关性识别模型。 相 关性识别模型不仅能识别两个样本文本之间的 相关性, 还能学习样本文本与第一文本之间的相 关关系和/或样本文本与第二文本之间的不相关 关系, 提高了泛化能力。 权利要求书3页 说明书21页 附图6页 CN 115393665 A 2022.11.25 CN 115393665 A 1.一种相关性识别模型的训练方法, 其特 征在于, 所述方法包括: 获取样本文本对和所述样本文本对中的两个样本文本的标注相关性; 控制神经网络模型确定所述样本文本对中的两个样本文本的预测相关性; 获取知识图谱, 所述知识图谱 包括多个节点, 所述节点表征基础文本; 对于所述样本文本对中的任一个样本文本, 从所述知识图谱中采样出所述任一个样本 文本对应的第一文本和 第二文本中的至少一项, 所述任一个样本文本对应的第一文本是与 所述任一个样本文本相关的基础文本, 所述任一个样本文本对应的第二文本是与所述任一 个样本文本不相关的基础文本; 基于所述样本文本对中的至少一个样本文本对应的第一文本和第二文本中的至少一 项, 以及所述标注相关性和所述预测相关性, 对所述神经网络模型进 行训练, 得到相关性识 别模型。 2.根据权利要求1所述的方法, 其特征在于, 所述知识图谱还包括多个边, 所述边表征 两端节点对应的基础文本之间的语义关系; 从所述知识图谱中采样出 所述任一个样本文本对应的第一文本, 包括: 在所述知识图谱中确定目标节点, 所述目标节点对应的基础文本为所述任一个样本文 本; 在所述知识图谱中确定至少一个第一边, 所述第一边的一端节点为所述目标节点, 所 述任一个样本文本的语义包含或者等同于所述第一边的另一端节点对应的基础文本的语 义; 从各个第一边的另一端节点对应的基础文本 中, 采样出所述任一个样本文本对应的第 一文本。 3.根据权利要求1所述的方法, 其特征在于, 所述知识图谱还包括多个边, 所述边表征 两端节点对应的基础文本之间的语义关系; 从所述知识图谱中采样出 所述任一个样本文本对应的第二文本, 包括: 在所述知识图谱中确定目标节点, 所述目标节点对应的基础文本为所述任一个样本文 本; 在所述知识图谱中确定至少一个第一边, 所述第一边的一端节点为所述目标节点, 所 述任一个样本文本的语义包含或者等同于所述第一边的另一端节点对应的基础文本的语 义; 从第一节点对应的基础文本中采样出所述任一个样本文本对应的第 二文本, 所述第 一 节点是所述知识图谱中除各个第一 边的两端节点之外的节点。 4.根据权利要求1所述的方法, 其特征在于, 所述知识图谱还包括多个边, 所述边表征 两端节点对应的基础文本之间的类别关系; 从所述知识图谱中采样出 所述任一个样本文本对应的第一文本, 包括: 在所述知识图谱中确定目标节点, 所述目标节点对应的基础文本为所述任一个样本文 本; 在所述知识图谱中确定至少一个第二边, 所述第二边的一端节点为所述目标节点, 所 述任一个样本文本的类别与所述第二 边的另一端节点对应的基础文本的类别相同; 从各个第二边的另一端节点对应的基础文本 中, 采样出所述任一个样本文本对应的第权 利 要 求 书 1/3 页 2 CN 115393665 A 2一文本。 5.根据权利要求1所述的方法, 其特征在于, 所述知识图谱还包括多个边, 所述边表征 两端节点对应的基础文本之间的类别关系; 从所述知识图谱中采样出 所述任一个样本文本对应的第二文本, 包括: 在所述知识图谱中确定目标节点, 所述目标节点对应的基础文本为所述任一个样本文 本; 在所述知识图谱中确定至少一个第二边, 所述第二边的一端节点为所述目标节点, 所 述任一个样本文本的类别与所述第二 边的另一端节点对应的基础文本的类别相同; 从第二节点对应的基础文本中采样出所述任一个样本文本对应的第 二文本, 所述第 二 节点是所述知识图谱中除各个第二 边的两端节点之外的节点。 6.根据权利要求1所述的方法, 其特征在于, 所述控制神经网络模型确定所述样本文本 对中的两个样本文本的预测相关性, 包括: 将所述样本文本对输入神经网络模型, 由所述神经网络模型确定所述样本文本对中的 两个样本文本的文本特 征; 将所述样本文本对中的两个样本文本的文本特 征进行融合, 得到样本融合特 征; 基于所述样本融合特 征确定所述样本文本对中的两个样本文本的预测相关性。 7.根据权利要求1所述的方法, 其特征在于, 所述基于所述样本文本对中的至少一个样 本文本对应的第一文本和第二文本中的至少一项, 以及所述标注相关性和所述预测相关 性, 对所述神经网络模型进行训练, 得到相关性识别模型, 包括: 基于所述标注相关性和所述预测相关性, 确定第一损失; 对于所述样本文本对中的任一个样本文本, 基于所述任一个样本文本对应的第 一文本 和第二文本中的至少一项, 确定所述任一个样本文本对应的第二损失; 基于所述第 一损失和所述样本文本对中的至少一个样本文本对应的第 二损失, 对所述 神经网络模型进行训练, 得到相关性识别模型。 8.根据权利要求7所述的方法, 其特征在于, 所述基于所述任一个样本文本对应的第 一 文本和第二文本中的至少一项, 确定所述任一个样本文本对应的第二损失, 包括: 确定所述任一个样本文本和对应的第一文本之间的第一相似度; 确定所述任一个样本文本和对应的第二文本之间的第二相似度; 基于所述第一相似度和所述第二相似度, 确定所述任一个样本文本对应的第二损失。 9.一种相关性识别方法, 其特 征在于, 所述方法包括: 获取目标文本对和相关性识别模型, 所述相关性识别模型是按照权利要求1至8任一项 所述的相关性识别模型的训练方法训练得到的; 将所述目标文本对输入所述相关性识别模型, 由所述相关性识别模型确定所述目标文 本对中的两个目标文本的文本特 征; 将所述目标文本对中的两个目标文本的文本特 征进行融合, 得到目标融合特 征; 基于所述目标融合特 征确定所述目标文本对中的两个目标文本的相关性。 10.一种电子设备, 其特征在于, 所述电子设备包括处理器和存储器, 所述存储器中存 储有至少一条计算机程序, 所述至少一条计算机程序由所述处理器加载并执行, 以使所述 电子设备实现如权利要求1至8任一所述的相关性识别模型 的训练方法或者实现如权利要权 利 要 求 书 2/3 页 3 CN 115393665 A 3

.PDF文档 专利 相关性识别模型的训练方法、相关性识别方法及设备

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 相关性识别模型的训练方法、相关性识别方法及设备 第 1 页 专利 相关性识别模型的训练方法、相关性识别方法及设备 第 2 页 专利 相关性识别模型的训练方法、相关性识别方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:16:28上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。