(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210692261.9
(22)申请日 2022.06.17
(71)申请人 西安邮电大 学
地址 710121 陕西省西安市长安区西长安
街西安邮电大 学
(72)发明人 王曙燕 马晶晶 孙家泽 王小银
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/02(2006.01)
(54)发明名称
面向神经机器翻译系统的句子粒度蜕变测
试方法
(57)摘要
本发明针对神经机器翻译系统存在的翻译
鲁棒性评估问题, 公开了一种面向神经机器翻译
系统的句子粒度蜕变测试方法, 属于蜕变测试领
域。 该方法首先对需要进行相似度计算的两组文
本进行数据预处理操作, 生成两组词语列表; 然
后, 将两组词语列表使用基于TF ‑IDF的词袋模型
构建文本向量, 并计算两组文本向量的夹角余弦
值; 同时, 计算出两组词语列表的Jaccard相似系
数和编辑距离; 最后, 根据定义的相似度计算公
式和蜕变关系计算出句子之间的相似度和蜕变
关系满足率。 本发明 改善了单一余弦相似度方法
难以反映出句子不同词序所带来的语义变化, 加
强句子因词序变化带来语义变化的辨别能力, 提
高了句子相似度计算准确度和翻译质量评估准
确度。
权利要求书2页 说明书5页 附图2页
CN 114881053 A
2022.08.09
CN 114881053 A
1.面向神经机器翻译系统的句子粒度蜕变测试 方法, 其特 征在于包括以下步骤:
步骤一: 获取语料库的中英文双语文本数据, 根据蜕变关系生成测试用例, 具体地, 将
每个领域英文 数据输入到基于神经网络的翻译系统中进行三次往返翻译: 先把源英语句子
Sen输入到翻译系统生成中文结果Szh, 再将Szh输入到翻译系统生成英文句子S ’en, 最后将
S’en再次输入翻译系统生成中文翻译结果S ’zh;
步骤二: 对数据集的源中英文数据和生成的测试用例进行数据 预处理操作: 分词、 删除
停用词和标点符号, 因为中英文构成不同, 英文句 子还需要进行小写字母转换和词形还原
等操作, 得到词语列表W;
步骤三: 将需要计算相似度的两个句子记为S1和S2, 经过数据预处理的句子形成词语列
表WS1和WS2, 通过基于TF ‑IDF的词袋模型将WS1和WS2表示为向量形式VS1和VS2, 传统计算是将
所有特征词的权重看作是相同的, 但针对具有不同领域数据的数据集, 需要降低次要特征
项的作用, 提升主要特征项的作用, 对词频进行改进, 增加一个权值, 其改进后的计算公式
如下:
tf‑idf(t,d)=tft,d·idft·ci
其中tft,d·idf是传统的TF ‑IDF算法计算过程, maxλn,i表示第i个特征词在n类文本数
据中出现的次数最多, ∑ λn表示n类文本的总词数;
步骤四: 计算VS1和VS2的夹角余弦值cos(VS1,VS2), 计算S1和S2的Jaccard系数J(WS1,WS2),
余弦相似度和Jac card系数计算公式如下:
其中,
表示两个向量VS1和VS2对应分量的乘积之和,
表示向量VS1的
长度,
表示向量VS2的长度, WS1∩WS2表示句子S1和S2共存的词, WS1∪WS2表示句子
S1和S2除去存在相同的词以外的所有词;
步骤五: 对数据集的源中英文数据和生成的测试用例进行数据预处理操作: 分词和去
除标点符号, 生成只保留句子中原词序的公共 子序列集合(W1,W2,…,Wn), S1和S2经过分词和
去除标点符号操作, 生成保留原句词序的词语列表, 然后计算S1和S2的编辑距离E(S1,S2),
用以衡量具有公共词语的两个句子之间词序的差异性, 编辑距离的计算公式如下:权 利 要 求 书 1/2 页
2
CN 114881053 A
2其中, k和l分别表示字符串S1和字符串S2的下标, 当min(k,l)=0时, 表示字符串S1和S2
中有一个为空串, 那么从x转换到y只需要进行max(k,l)次单字符编辑操作, 所以它们之间
的编辑距离为max(k,l), 即k和l中的最大者。 当min(k,l)≠0的时候,
表示
删除S1k,
表示插入S2l,
表示替换S2l,
是指示
函数, 当S1k=S2l时, 其函数值为0; 否则函数值 为1;
步骤六: 计算句子S1和S2的相似度Smilarity(S1,S2),Smilarity(S1,S2)由Jaccard系数
和编辑距离乘积构成的抑制因子和余弦相似度的乘积得来, 计算公式如下:
其中, Jaccard系数和编辑距离乘积KS1,S2对余弦相似度产生抑制作用, 能够弥补余弦相
似度不能捕捉到因为词序变化带来的语义变化, KS1,S2以对数衰减函数 形式构造;
步骤七: 根据相似度计算公式, 计算两个句子的相似度, 将步骤一的源英文句子Sen和生
成的测试用例Szh、 S’en和S’zh, 按照如图1的流程, 重复步骤三到六, 直到计算出所有句子对
Sen和S’en、 Szh和S’zh的相似度为止;
步骤八: 根据蜕变关系得 出蜕变关系满足率, 蜕变关系的定义如下:
Similarity(Szh,S'zh)/Similarity(Sen,S'en)≥1
其中, Similarity(Szh,S'zh)代表目标语言中文句子对的相似度结果, Similarit y(Sen,
S'en)代表源语言英文句子对的相似度结果, 只使用单一语言句子对的相似度作评估结果,
未考虑到回译或正译的翻译结果的质量出现或 高或低的情况, 因此使用两种语言的句子相
似度结果的比值评估翻译质量;
步骤九: 根据每 个翻译引擎的句子蜕变关系满足率计算出其翻译质量的评估分数。
2.根据权利要求1所述的面向神经机器翻译系统的句子粒度蜕变测试方法, 其特征在
于: 该方法可以应用于神经机器翻译系统的翻译质量鲁棒 性评估。权 利 要 求 书 2/2 页
3
CN 114881053 A
3
专利 面向神经机器翻译系统的句子粒度蜕变测试方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:15:23上传分享