专利平行语料数据处理方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211065203.X (22)申请日 2022.09.01 (71)申请人中国专利信息中心地址 102206 北京市昌平区朱辛庄中路国家知识产权局办公区 (72)发明人张文　费一楠　胡婷　扈林芳　 (74)专利代理机构北京同立钧成知识产权代理有限公司 1 1205 专利代理师朱颖　刘芳 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/58(2020.01)G06F 16/215(2019.01) G06F 16/335(2019.01) G06N 3/08(2006.01) (54)发明名称平行语料数据处理方法、装置、设备及介质 (57)摘要本申请提供一种平行语料数据处理方法、装置、设备及介质。在该方法中，根据标点符号集合，对待训练的平行语料中的源语句和目标语句进行划分，进而将通过划分得到的子源语句和子目标语句输入预设语义模型，得到每个子源语句和每个子目标语句语义向量。再根据语义向量计算得到每个子源语句和每个子目标语句对应的目标余弦相似距离，最后根据目标余弦相似距离和预设距离阈值，对平行语料进行过滤处理。本方案通过对待训练的平行语料进行划分，计算目标余弦相似距离，实现了在源语句和目标语句存在语义不相关的语料，且源语句和目标语句的整体长度相差较小的情况下，对平行语料进行过滤处理。权利要求书2页说明书14页附图3页 CN 115496070 A 2022.12.20 CN 115496070 A 1.一种平行语料数据处理方法，其特征在于，包括：根据标点符号集合，对待训练的平行语料中的源语句和目标语句进行划分，得到子源语句和子目标语句；将所述子源语句和所述子目标语句输入预设语义模型，获取每个子源语句和每个子目标语句对应的语义向量；根据所述语义向量，计算每个子源语句和每个子目标语句对应的目标余弦相似距离；根据所述目标余弦相似距离和预设距离阈值，对所述平行语料进行过滤处理。 2.根据权利要求1所述的方法，其特征在于，所述根据所述语义向量，计算每个子源语句和每个子目标语句对应的目标余弦相似距离，包括：对于每个子源语句，根据所述子源语句的语义向量和每个子目标语句对应的语义向量，计算所述子源语句与每个子目标语句的第一余弦相似距离；将所述第一余弦相似距离中的最大值，确定为所述子源语句对应的目标余弦相似距离；对于每个子目标语句，根据所述子目标语句的语义向量和每个源目标语句对应的语义向量，计算所述子目标语句与每个子源语句的第二余弦相似距离；将所述第二余弦相似距离中的最大值，确定为所述子目标语句对应的目标余弦相似距离。 3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标余弦相似距离和预设距离阈值，对所述平行语料进行过滤，包括：对于每个子源语句，若所述子源语句对应的目标余弦相似距离小于或等于所述预设距离阈值，则将所述平行语料中的所述子源语句删除；对于每个子目标语句，若所述子目标语句对应的目标余弦相似距离小于或等于所述预设距离阈值，则将所述平行语料中的所述子目标语句删除。 4.根据权利要求3所述的方法，其特征在于，所述根据标点符号集合，对平行语料中的源语句和目标语句进行划分，得到子源语句和子目标语句之后，所述方法还包括：对每个子源语句和每个子目标语句进行分词处理，获取每个子源语句和每个子目标语句对应的分词数量；根据分词数量和预设数量阈值对子源语句和子目标语句分别进行合并，得到更新后的子源语句和更新后的子目标语句，所述更新后的子源语句和所述更新后的子目标语句对应的分词数量大于或等于所述预设数量阈值。 5.根据权利要求4所述的方法，其特征在于，所述标点符号集合中的标点符号包括：中文逗号、中文句号、中文问号、中文感叹号、中文顿号、中文分号、英文逗号、英文句号、英文问号、英文感叹号、英文分号。 6.根据权利要求5所述的方法，其特征在于，所述预设语义模型包括：语言无关基于转换器的双向编码表征句子嵌入LaBSE语义模型。 7.一种平行语料数据处理装置，其特征在于，包括：划分模块，用于根据标点符号集合，对待训练的平行语料中的源语句和目标语句进行划分，得到子源语句和子目标语句；获取模块，用于将所述子源语句和所述子目标语句输入预设语义模型，获取每个子源权　利　要　求　书 1/2 页 2 CN 115496070 A 2语句和每个子目标语句对应的语义向量；处理模块，用于：根据所述语义向量，计算每个子源语句和每个子目标语句对应的目标余弦相似距离；根据所述目标余弦相似距离和预设距离阈值，对所述平行语料进行过滤处理。 8.一种电子设备，其特征在于，包括：处理器，存储器，通信接口；所述存储器用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至6任一项所述的平行语料数据处理方法。 9.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至 6任一项所述的平行语料数据处理方法。 10.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至 6任一项所述的平行语料数据处理方法。权　利　要　求　书 2/2 页 3 CN 115496070 A 3

专利 平行语料数据处理方法、装置、设备及介质

专利平行语料数据处理方法、装置、设备及介质