全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210302051.4 (22)申请日 2022.03.25 (71)申请人 青岛海尔科技有限公司 地址 266101 山东省青岛市崂山区海尔路1 号海尔工业园 申请人 海尔智家 股份有限公司 (72)发明人 雷丽莉  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 周婷婷 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) (54)发明名称 语料处理方法和装置、 存 储介质 (57)摘要 本发明公开了一种语料处理方法和装置、 存 储介质。 其中, 该方法包括: 对样本语料集合中的 样本语料进行分词, 得到样本字段; 对样本字段 进行义位拆分, 得到至少一个样本义原字; 根据 样本字段以及样本字段包含的样本义原字确定 样本字段对应的样本义原集合, 其中, 样本义原 集合包括至少一个样本义原, 每个样本义原均包 括义原标识和义原特征, 义原特征用于指示样本 字段或样 本义原字与义原标识对应的特征; 根据 样本字段和样本字段对应的样 本义原集合, 确定 目标义原字典。 本发明解决了基于词义知识库进 行语料标注准确性低的技 术问题。 权利要求书2页 说明书11页 附图4页 CN 114756649 A 2022.07.15 CN 114756649 A 1.一种语料处 理方法, 其特 征在于, 包括: 对样本语料集 合中的样本语料进行分词, 得到样本 字段; 对所述样本 字段进行义 位拆分, 得到 至少一个样本义原字; 根据所述样本字段以及所述样本字段包含的所述样本义原字确定所述样本字段对应 的样本义原集合, 其中, 所述样本义原 集合包括至少一个样本义原符号, 每个所述样本义原 符号均包括义原标识和义原特征, 所述义原特征用于指示所述样本字段或所述样本义原字 与所述义原标识对应的特 征; 根据所述样本 字段和所述样本 字段对应的所述样本义原集 合, 确定目标义原字典。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述样本字段以及所述样本字段 包含的所述样本义原字确定所述样本 字段对应的样本义原集 合, 包括: 根据所述样本字段的词性确定所述样本字段对应的描述格式, 其中, 所述描述格式包 括至少一个描述 义原, 所述至少一个描述 义原包括词性 义原; 根据所述样本字段对应的描述格式和所述样本字段包含的所述样本义原字确定每个 所述样本义原字对应的至少一个样本义原符号; 根据每个所述样本义原字各自对应的所述至少一个样本义原符号, 确定所述样本字段 对应的所述样本义原集 合。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述样本字段对应的描述格 式和 所述样本字段包含的所述样本义原字确定每个所述样本义原字对应的至少一个样本义原 符号, 包括: 在所述样本字段的词性为名词的情况下, 分别确定所述样本字段中每个所述样本义原 字对应的属性 义原、 特性 义原、 特征义原中的至少一个。 4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 在确定所述目标义原字典之后, 还包括: 获取为待标注语料进行标注的目标标注标签, 其中, 所述目标标注标签包括至少一个 目标义原标签以及所述目标义原标签对应的标注匹配度; 在所述目标义原字典中, 依次确定与所述目标义原标签的所述标注匹配度匹配的候选 字段; 在所述待标注语料中存在与 所述候选字段匹配的目标字段的情况下, 对所述目标字段 进行标注, 其中, 所述目标字段为对所述待标注语料进行分词得到的字段。 5.根据权利要求4所述的方法, 其特征在于, 在目标义原字典中, 依次确定与所述目标 义原标签的所述标注匹配度匹配的候选 字段包括: 构建与所述目标义原标签对应的初始字段集 合, 其中, 所述初始字段集 合为空集合; 在所述标注匹配度指示完全匹配的情况下, 在所述目标义原字典中, 查找所述义原集 合与所述 目标义原标签一致的候选字段, 并将所述候选字段添加至所述初始字段集合中, 以形成与所述目标义原标签匹配的候选 字段集合。 6.根据权利要求5所述的方法, 其特征在于, 在构建与 所述目标义原标签对应的初始字 段集合之后, 还 包括: 在所述标注匹配度指示包含匹配的情况下, 在所述目标义原字典中, 查找所述义原集 合包含所述目标义原标签中全部目标义原的候选字段, 并将所述候选字段添加至所述初始权 利 要 求 书 1/2 页 2 CN 114756649 A 2字段集合中, 以形成与所述目标义原标签匹配的候选 字段集合。 7.根据权利要求6所述的方法, 其特征在于, 在目标义原字典中, 依次确定与所述目标 义原标签的所述标注匹配度匹配的候选 字段之后, 还 包括: 对所述待标注语料进行分词, 得到 至少一个当前字段; 依次在每 个所述目标义原标签对应的所述 候选字段集合中查找所述当前字段; 在从所述候选字段集合中查找到所述当前字段的情况下, 确定所述当前字段为命中所 述目标义原标签的所述目标字段。 8.根据权利要求 4所述的方法, 其特 征在于, 所述对所述目标字段进行 标注包括: 调整所述目标字段的显示 参数, 以在所述待标注语料中突出显示所述目标字段; 或, 利用所述目标义原标签对所述目标字段进行 标注。 9.一种语料处 理装置, 其特 征在于, 包括: 分词单元, 用于对样本语料集 合中的样本语料进行分词, 得到样本 字段; 拆分单元, 用于对所述样本 字段进行义 位拆分, 得到 至少一个样本义原字; 义原单元, 用于根据 所述样本字段以及所述样本字段包含的所述样本义原字确定所述 样本字段对应的样本义原集合, 其中, 所述样 本义原集合包括至少一个样本义原, 每个所述 样本义原均包括义原标识和义原特征, 所述义原特征用于指示所述样本字段或所述样本义 原字与所述 义原标识对应的特 征; 确定单元, 用于根据所述样本字段和所述样本字段对应的所述样本义原集合, 确定目 标义原字典。 10.一种计算机可读的存储介质, 其特征在于, 所述计算机可读的存储介质包括存储的 程序, 其中, 所述 程序运行时执 行所述权利要求1至8任一项中所述的方法。权 利 要 求 书 2/2 页 3 CN 114756649 A 3

.PDF文档 专利 语料处理方法和装置、存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语料处理方法和装置、存储介质 第 1 页 专利 语料处理方法和装置、存储介质 第 2 页 专利 语料处理方法和装置、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。