说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210405606.8 (22)申请日 2022.04.18 (71)申请人 南通大学 地址 226019 江苏省南 通市啬园路9号 (72)发明人 陈翔 郑炜 王通 陈雪骄 林浩 周彦琳 缪芸 苏展 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) (54)发明名称 基于辅助翻译软件和双粒度替换的英中翻 译软件测试方法 (57)摘要 本发明属于机器翻译质量检测技术领域, 公 开了一种基于辅助翻译软件和双粒度替换的英 中翻译软件测试方法。 针对需要测试的一系 列英 文源句, 首先借助辅助翻译软件, 通过计算主英 中机器翻译软件和辅助英中机器翻译软件的翻 译结果间的余弦相似度, 识别出错误候选句子。 随后对英文源句进行双粒度替换, 以生成替换后 的英文源句。 并基于成分句法分析和依存句法分 析, 通过对比原始英文源句和替换后的英文源句 在主英中机器翻译软件的翻译结果的结构表征 来进一步识别出错误候选句子。 最后通过分析被 归为错误候选句子的英文源句, 尝试定位并修复 英中翻译软件测试方法的实现代码, 以提高英中 翻译软件的翻译质量。 权利要求书2页 说明书9页 附图1页 CN 115130480 A 2022.09.30 CN 115130480 A 1.一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法, 其特征在于, 包括 如下步骤: (1)将被测英中机器翻译软件视为主英中机器翻译软件, 其他三个英中机器翻译软件 视为辅助英中机器翻译软件, 针对需要测试的一系列英文源句, 依次分析每 个英文源句; 所述分析每个英文源句具体为: 给定一个英文源句, 将主英中机器翻译软件的翻译结 果, 即中文目标句A, 与辅助英中机器翻译软件的翻译结果进行对比, 在对比的时候主要基 于余弦相似度来计算翻译 结果之间的相似度, 将三个辅助英中机器翻译 软件生成的中文目 标句定义为A1、 A2、 A3。 首先将相似度阈值设置为0.85, 计算A1、 A2、 A3两两之间的余弦相似度, 若两句间的余弦相似度超过阈值0.85, 则认为这两个句子相似, 根据上述 结果, 可以将A1、 A2 和A3归到不同的集 合中, 使得处在同一 集合内的中文目标句两 两相似; 根据集合划分的结果, 存在两种情况: 情况1: A1、 A2、 A3被归到不同集合 内, 将该英文源句视为错误候选句子, 人工分析错误类 型, 并进行归类错误类型包括: 翻译不 足、 翻译过度、 逻辑不清、 单词误译、 单词歧义、 错误修 饰; 情况2: 有集合包含的中文目标句不少于2个, 将中文目标句A与该集合内的中文目标句 进行余弦相似度计算并取均值, 若均值低于相似度阈值0.85, 则将该英文源句视为错误候 选句子, 人工分析错 误类型。 针对剩余未被归为 错误候选句子的英文源句, 则进入步骤(2); (2)针对步骤(1)中剩余未被归为错误候选句子的英文源句, 依次分析每个英文源句, 具体来说: 对需要分析的英文源句进 行双粒度替换, 以生 成替换后的英文源句。 随后基于成 分句法分析和依存句法分析, 通过对比原始英文源句和替换后的英文源句在主英中机器翻 译软件的翻译 结果的结构表征, 以判断是否存在翻译错误, 并随后人工 分析错误类型, 并进 行归类; 具体包括如下步骤: 2‑1)选择英文源句中 需要替换的单词或者短语; 2‑2)基于BERT遮蔽语言模型, 完成单词粒度的替换或者短语粒度的替换, 以生成替换 后的英文源句; 其中, 单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文 源句中的一个单词, 以完成单词粒度的替换, 主要考虑名词、 形容词和 动词三个成分); 短语 粒度的替换 是在单词粒度的基础上, 组合出主谓短语和动宾短语进行替换; 具体包括以下步骤: 将需要替换的单词和短语用MASK进行标记, 随后将标记过的英文源句输入BERT遮蔽语 言模型, 该模型可以根据句 子的上下文预测被遮蔽位置的单词或短语, 最后用预测出 的单 词或短语替换英文源句中对应位置的单词或短语, 以得到基于单词粒度或短语粒度的替换 句; BERT模型的超参与超参取值设置如下: 所述BERT模型的一次训练所抓取的数据样本数量设置为16; 所述BERT模型的学习率设置为0.0 0002; 所述BERT模型的dropout设置为0.1; 所述BERT模型的训练轮次设置为3轮;权 利 要 求 书 1/2 页 2 CN 115130480 A 2所述BERT模型的每 个样本的最大长度, 即最大 单词数设置为128; 2‑3)基于成分句法分析和依存句法分析, 依次分析英文源句和生成的替换句; 具体包括以下步骤: 假设原始英文源句为s, 基于主英中机器翻译软件得到的中文目标句为t, 替换后的英 文源句为s ’, 基于主英中机器翻译软件得到的中文目标句为t ’; 通过成分句法分析 得到中文目标句t和中文目标句t ’的结构表征; 通过集合差的方式, 计算出中文目标句t的结构表征与中文目标句t ’的结构表征的差 值, 并将该差值包 含的元素数作为基于成分句法分析 得到的差异值dif f1; 通过依存句法分析得到中文目标句t和中文目标句t ’的结构表征, 通过集合差的方式, 计算出中文目标句t的结构表征与中文目标句t ’的结构表征的差值, 并将该差值包含的元 素数作为基于依存句法分析 得到的差异值dif f2; 将差异值diff1和差异值diff2相加, 最终可以得到针对原始英文源句s和英文源句s ’ 的最终差值; 若 该差值超过阈值6, 则将 英文源句s和英文源句s ’视为错误候选句子, 人工 分 析错误类型, 并进行归类。 (3)针对步骤(1)和步骤(2)中被归为错误候选句子的英文源句, 尝试定位并修复英中 翻译软件测试 方法的实现代码, 以提高英中翻译软件的翻译质量。权 利 要 求 书 2/2 页 3 CN 115130480 A 3
专利 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 17:49:58
上传分享
举报
下载
原文档
(984.6 KB)
分享
友情链接
北京金融产业联盟 金融行业云原生安全体系研究报告 2024.pdf
安全架构实践的公理 2020.pdf
GB-T 43803-2024 科研机构评估指南.pdf
GB-T 36572-2018电力监控系统网络安全防护导则.pdf
GB-T 34943-2017 C-C++语言源代码漏洞测试规范.pdf
T-WD 107—2020 公共海外仓设施技术要求与运营管理规范.pdf
DB5201-T 121-2022 惠民生鲜超市建设与管理规范 贵阳市.pdf
GB-T 22240-2020 网络安全等级保护定级指南.pdf
DB11-T 2111-2023 信息系统运行维护服务 用户单位实施要求 北京市.pdf
T-DGAG 024—2024 政务信息化项目 服务成本度量规范 系统业务运营服务.pdf
GB-T 33474-2016 物联网 参考体系结构.pdf
GB-T 29246-2023 信息安全技术 信息安全管理体系 概述和词汇 ISO 27000-2018.pdf
GMT 0051-2016 密码设备管理 对称密钥管理技术规范.pdf
DB52-T 1523-2020 经果林园区套种大豆栽培技术规程 贵州省.pdf
NB-T 10579-2021 海上风电场运行安全规程.pdf
T-CHTS 10045—2021 公路货运车辆超限超载动态监测系统技术要求.pdf
GB-T 43207-2023 信息安全技术 信息系统密码应用设计指南.pdf
WS-T 794-2022 输血相容性检测标准.pdf
GB-T 25360-2010 汽车加气站用往复活塞天然气压缩机.pdf
DB12-T 455-2012 贵金属及珠宝玉石饰品经营服务规范 天津市.pdf
交流群
-->
1
/
3
13
评价文档
赞助2元 点击下载(984.6 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。