专利面向神经机器翻译系统的句子粒度蜕变测试方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210692261.9 (22)申请日 2022.06.17 (71)申请人西安邮电大学地址 710121 陕西省西安市长安区西长安街西安邮电大学 (72)发明人王曙燕　马晶晶　孙家泽　王小银　 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/02(2006.01) (54)发明名称面向神经机器翻译系统的句子粒度蜕变测试方法 (57)摘要本发明针对神经机器翻译系统存在的翻译鲁棒性评估问题，公开了一种面向神经机器翻译系统的句子粒度蜕变测试方法，属于蜕变测试领域。该方法首先对需要进行相似度计算的两组文本进行数据预处理操作，生成两组词语列表；然后，将两组词语列表使用基于TF ‑IDF的词袋模型构建文本向量，并计算两组文本向量的夹角余弦值；同时，计算出两组词语列表的Jaccard相似系数和编辑距离；最后，根据定义的相似度计算公式和蜕变关系计算出句子之间的相似度和蜕变关系满足率。本发明改善了单一余弦相似度方法难以反映出句子不同词序所带来的语义变化，加强句子因词序变化带来语义变化的辨别能力，提高了句子相似度计算准确度和翻译质量评估准确度。权利要求书2页说明书5页附图2页 CN 114881053 A 2022.08.09 CN 114881053 A 1.面向神经机器翻译系统的句子粒度蜕变测试方法，其特征在于包括以下步骤：步骤一：获取语料库的中英文双语文本数据，根据蜕变关系生成测试用例，具体地，将每个领域英文数据输入到基于神经网络的翻译系统中进行三次往返翻译：先把源英语句子 Sen输入到翻译系统生成中文结果Szh，再将Szh输入到翻译系统生成英文句子S ’en，最后将 S’en再次输入翻译系统生成中文翻译结果S ’zh；步骤二：对数据集的源中英文数据和生成的测试用例进行数据预处理操作：分词、删除停用词和标点符号，因为中英文构成不同，英文句子还需要进行小写字母转换和词形还原等操作，得到词语列表W；步骤三：将需要计算相似度的两个句子记为S1和S2，经过数据预处理的句子形成词语列表WS1和WS2，通过基于TF ‑IDF的词袋模型将WS1和WS2表示为向量形式VS1和VS2，传统计算是将所有特征词的权重看作是相同的，但针对具有不同领域数据的数据集，需要降低次要特征项的作用，提升主要特征项的作用，对词频进行改进，增加一个权值，其改进后的计算公式如下： tf‑idf(t,d)＝tft,d·idft·ci 其中tft,d·idf是传统的TF ‑IDF算法计算过程， maxλn,i表示第i个特征词在n类文本数据中出现的次数最多， ∑ λn表示n类文本的总词数；步骤四：计算VS1和VS2的夹角余弦值cos(VS1,VS2)，计算S1和S2的Jaccard系数J(WS1,WS2), 余弦相似度和Jac card系数计算公式如下：其中, 表示两个向量VS1和VS2对应分量的乘积之和，表示向量VS1的长度，表示向量VS2的长度， WS1∩WS2表示句子S1和S2共存的词， WS1∪WS2表示句子 S1和S2除去存在相同的词以外的所有词；步骤五：对数据集的源中英文数据和生成的测试用例进行数据预处理操作：分词和去除标点符号，生成只保留句子中原词序的公共子序列集合(W1,W2,…,Wn)， S1和S2经过分词和去除标点符号操作，生成保留原句词序的词语列表，然后计算S1和S2的编辑距离E(S1,S2), 用以衡量具有公共词语的两个句子之间词序的差异性，编辑距离的计算公式如下：权　利　要　求　书 1/2 页 2 CN 114881053 A 2其中， k和l分别表示字符串S1和字符串S2的下标，当min(k,l)＝0时，表示字符串S1和S2 中有一个为空串，那么从x转换到y只需要进行max(k,l)次单字符编辑操作，所以它们之间的编辑距离为max(k,l)，即k和l中的最大者。当min(k,l)≠0的时候，表示删除S1k，表示插入S2l，表示替换S2l，是指示函数，当S1k＝S2l时，其函数值为0；否则函数值为1；步骤六：计算句子S1和S2的相似度Smilarity(S1,S2),Smilarity(S1,S2)由Jaccard系数和编辑距离乘积构成的抑制因子和余弦相似度的乘积得来，计算公式如下：其中， Jaccard系数和编辑距离乘积KS1,S2对余弦相似度产生抑制作用，能够弥补余弦相似度不能捕捉到因为词序变化带来的语义变化， KS1,S2以对数衰减函数形式构造；步骤七：根据相似度计算公式，计算两个句子的相似度，将步骤一的源英文句子Sen和生成的测试用例Szh、 S’en和S’zh，按照如图1的流程，重复步骤三到六，直到计算出所有句子对 Sen和S’en、 Szh和S’zh的相似度为止；步骤八：根据蜕变关系得出蜕变关系满足率，蜕变关系的定义如下： Similarity(Szh,S'zh)/Similarity(Sen,S'en)≥1 其中， Similarity(Szh,S'zh)代表目标语言中文句子对的相似度结果， Similarit y(Sen, S'en)代表源语言英文句子对的相似度结果，只使用单一语言句子对的相似度作评估结果，未考虑到回译或正译的翻译结果的质量出现或高或低的情况，因此使用两种语言的句子相似度结果的比值评估翻译质量；步骤九：根据每个翻译引擎的句子蜕变关系满足率计算出其翻译质量的评估分数。 2.根据权利要求1所述的面向神经机器翻译系统的句子粒度蜕变测试方法，其特征在于：该方法可以应用于神经机器翻译系统的翻译质量鲁棒性评估。权　利　要　求　书 2/2 页 3 CN 114881053 A 3

专利 面向神经机器翻译系统的句子粒度蜕变测试方法

专利面向神经机器翻译系统的句子粒度蜕变测试方法