全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211065203.X (22)申请日 2022.09.01 (71)申请人 中国专利信息中心 地址 102206 北京市昌平区朱辛庄中路国 家知识产权局办公区 (72)发明人 张文 费一楠 胡婷 扈林芳  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 朱颖 刘芳 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/58(2020.01)G06F 16/215(2019.01) G06F 16/335(2019.01) G06N 3/08(2006.01) (54)发明名称 平行语料 数据处理方法、 装置、 设备及 介质 (57)摘要 本申请提供一种平行语料数据处理方法、 装 置、 设备及介质。 在该方法中, 根据标点符号集 合, 对待训练的平行语料中的源语句和目标语句 进行划分, 进而将通过划分得到的子源语句和子 目标语句输入 预设语义模型, 得到每个子源语句 和每个子目标语句语义向量。 再根据语义向量计 算得到每个子源语句和每个子目标语句对应的 目标余弦相似距离, 最后根据目标余弦相似距离 和预设距离阈值, 对平行语料进行过滤处理。 本 方案通过对待训练的平行语料进行划分, 计算目 标余弦相似距离, 实现了在源语句和目标语句存 在语义不相关的语料, 且源语句和目标语句的整 体长度相差较小的情况下, 对平行语料进行过滤 处理。 权利要求书2页 说明书14页 附图3页 CN 115496070 A 2022.12.20 CN 115496070 A 1.一种平行语料 数据处理方法, 其特 征在于, 包括: 根据标点符号集合, 对待训练的平行语料中的源语句和目标语句进行划分, 得到子源 语句和子目标语句; 将所述子源语句和所述子目标语句输入预设语义模型, 获取每个子源语句和每个子目 标语句对应的语义向量; 根据所述语义向量, 计算每 个子源语句和每 个子目标语句对应的目标余弦相似距离; 根据所述目标余弦相似距离和预设距离阈值, 对所述平行语料进行 过滤处理。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述语义向量, 计算每个子源语 句和每个子目标语句对应的目标余弦相似距离, 包括: 对于每个子源语句, 根据所述子源语句 的语义向量和每个子目标语句对应的语义向 量, 计算所述子源语句与每 个子目标语句的第一 余弦相似距离; 将所述第一余弦相似距离中的最大值, 确定为所述子源语句对应的目标余弦相似距 离; 对于每个子目标语句, 根据 所述子目标语句的语义向量和每个源目标语句对应的语义 向量, 计算所述子目标语句与每 个子源语句的第二 余弦相似距离; 将所述第二余弦相似距离 中的最大值, 确定为所述子目标语句对应的目标余弦相似距 离。 3.根据权利要求1或2所述的方法, 其特征在于, 所述根据所述目标余弦相似距离和预 设距离阈值, 对所述平行语料进行 过滤, 包括: 对于每个子源语句, 若所述子源语句对应的目标余弦相似距离小于或等于所述预设距 离阈值, 则将所述平行语料中的所述子源语句删除; 对于每个子目标语句, 若所述子目标语句对应的目标余弦相似距离小于或等于所述预 设距离阈值, 则将所述平行语料中的所述子目标语句删除。 4.根据权利要求3所述的方法, 其特征在于, 所述根据标点符号集合, 对平行语料中的 源语句和目标语句进行划分, 得到 子源语句和子目标语句之后, 所述方法还 包括: 对每个子源语句和每个子目标语句进行分词处理, 获取每个子源语句和每个子目标语 句对应的分词数量; 根据分词数量和预设数量阈值对子源语句和子目标语句分别进行合并, 得到更新后的 子源语句和更新后的子目标语句, 所述更新后的子源语句和所述更新后的子目标语句对应 的分词数量大于或等于所述预设数量阈值。 5.根据权利要求4所述的方法, 其特征在于, 所述标点符号集合中的标点符号包括: 中 文逗号、 中文句号、 中文问号、 中文感 叹号、 中文顿号、 中文分号、 英文逗号、 英文句号、 英文 问号、 英文感叹号、 英文分号。 6.根据权利要求5所述的方法, 其特征在于, 所述预设语义模型包括: 语言无关基于转 换器的双向编码表征句子嵌入LaBSE语义模型。 7.一种平行语料 数据处理装置, 其特 征在于, 包括: 划分模块, 用于根据标点符号集合, 对待训练的平行语料中的源语句和目标语句进行 划分, 得到 子源语句和子目标语句; 获取模块, 用于将所述子源语句和所述子目标语句输入预设语义模型, 获取每个子源权 利 要 求 书 1/2 页 2 CN 115496070 A 2语句和每 个子目标语句对应的语义向量; 处理模块, 用于: 根据所述语义向量, 计算每 个子源语句和每 个子目标语句对应的目标余弦相似距离; 根据所述目标余弦相似距离和预设距离阈值, 对所述平行语料进行 过滤处理。 8.一种电子设备, 其特 征在于, 包括: 处理器, 存储器, 通信接口; 所述存储器用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1至6任一项所述的 平行语料 数据处理方法。 9.一种可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器 执行时实现权利要求1至 6任一项所述的平行语料 数据处理方法。 10.一种计算机程序产品, 其特征在于, 包括计算机程序, 所述计算机程序被处理器执 行时用于实现权利要求1至 6任一项所述的平行语料 数据处理方法。权 利 要 求 书 2/2 页 3 CN 115496070 A 3

PDF文档 专利 平行语料数据处理方法、装置、设备及介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 平行语料数据处理方法、装置、设备及介质 第 1 页 专利 平行语料数据处理方法、装置、设备及介质 第 2 页 专利 平行语料数据处理方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。