全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211049398.9 (22)申请日 2022.08.30 (71)申请人 华润数字科技有限公司 地址 518000 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园2栋801 (72)发明人 陈焕坤 王伟 张黔 黄童玲  李依霓  (74)专利代理 机构 深圳市精英专利事务所 44242 专利代理师 巫苑明 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文本纠错的对抗训练和推理方法、 装置 及相关介质 (57)摘要 本发明公开了一种文本纠错的对抗训练和 推理方法、 装置及相关介质, 该方法包括: 获取训 练集的文本样本, 分别经过嵌入层、 编码层、 检测 层以及纠错层进行处理得到对应的纠错分数和 正确样本; 在每T个批次的数据迭代训练后进行 对抗样本生成, 处理后得到文本纠错模型; 将待 纠错文本输入至所述文本纠错模 型进行推理, 得 到所述待纠错文本对应的正确样 本。 本发明在生 成对抗样本的过程中, 选择混淆度最大的前K个 候选样本, 加入训练集进行训练, 提高了所述文 本纠错模型的稳定性; 并且能够提高训练阶段的 数据分布范围, 使预测阶段与训练阶段的数据分 布差异减 小, 从而提高文本纠错模型的准确率。 权利要求书2页 说明书8页 附图2页 CN 115358222 A 2022.11.18 CN 115358222 A 1.一种文本纠错的对抗训练和推理方法, 其特 征在于, 包括: 获取训练集的文本样本, 将所述文本样本输入嵌入层进行文本转化处理, 得到嵌入文 本; 将所述嵌入文本 输入编码层进行编码得到编码文本; 将所述编码文本分别 输入检测层和纠错层进行逻辑 回归计算处理和多分类计算处理, 得到所述文本样本中每一字符对应的纠错分数和所述文本样本对应的正确样本; 在每T个批次的数据迭代训练后进行对抗样本生成, 并将生成的对抗样本加入所述训 练集继续进行训练, 得到文本纠错模型; 其中, 对抗样本生成的步骤包括: 遍历所述文本样本中的所有字符, 对每一字符, 选取 其在混淆字典中的易错字 符进行替换, 形成一个候选样本, 最终产生多个候选样本; 计算各 所述候选样本的混淆度, 根据各所述候选样本的混淆度进行排序, 提取混淆度最大的前K个 候选样本作为输出; 将待纠错文本输入至所述文本纠错模型进行推理, 得到所述待纠错文本对应的正确样 本。 2.根据权利要求1所述的文本纠错的对抗训练和推理方法, 其特征在于, 所述混淆度的 计算过程包括: 按如下公式计算得到句子混淆度: 其中, pi表示对于xi, 所述纠错层输出概率分布的最大值, n表示待计算样本的字符数 量, Ssentence表示所述句子混淆度, xi表示待计算样本的第i个字符; 按如下公式计算得到 字符混淆度: Sword=di*(1‑pi) 其中, di表示对于xi, 所述检测层输出的纠错分数, Sword表示所述字符混淆度; 按如下公式计算得到所述混淆度S: S=Ssentence+Sword。 3.根据权利要求1所述的文本纠 错的对抗训练和推理方法, 其特征在于, T的计算过程 如下: 其中, sample表示训练集 的文本样本总数, batch表示选取的训练数据的数量, epochs 表示在文本样本的总迭代次数, epoc h表示当前迭代次数。 4.根据权利要求1所述的文本纠错的对抗训练和推理方法, 其特征在于, 所述将待纠错 文本输入至所述文本纠错模型进行推理, 得到所述待纠错文本对应的正确样本, 包括: 将待纠错文本输入至所述文本纠错模型进行推理, 得到所述待纠错文本 中每一字符对 应的第一级纠错分数和所述待纠错文本对应的第一级正确样本; 并将所述第一级纠错分数 作为当前级纠错分数和所述第一级正确样本作为当前级正确样本;权 利 要 求 书 1/2 页 2 CN 115358222 A 2二次推理: 对所述当前级纠 错分数和所述当前级正确样本进行词向量加权求和, 并再 次输入所述编 码层进行编码后分别经过所述检测层以及所述纠错层, 得到下一级纠错分数 和下一级正确样本; 分别计算所述当前级正确样本和所述下一级正确样本的句子混淆度; 判断所述下一级 正确样本的句 子混淆度是否大于所述当前级正确样本的句 子混淆度, 若否, 则将所述下一 级纠错分数作为当前级纠错分数和所述下一级正确样本作为当前级正确样本, 并返回执行 二次推理, 直到判断结果 为是; 若是, 则输出 所述当前级正确样本 。 5.根据权利要求4所述的文本纠错的对抗训练和推理方法, 其特征在于, 所述词向量加 权求和的计算公式如下: ei=di*E([mask])+(1 ‑di)*E(yi) 其中, ei表示词向量加权求和结果, di表示所述检测层输出的第i个纠错分数, E表示所 述嵌入层, E([mask])表示通过所述嵌入层提取字符[mask]的词向量, E(yi)表示通过嵌入 层提取所述当前级正确样本中第i个字符 yi的词向量。 6.根据权利要求5所述的文本纠错的对抗训练和推理方法, 其特征在于, 每一所述当前 级纠错分数 范围在0~1。 7.根据权利要求1所述的文本纠错的对抗训练和推理方法, 其特征在于, 所述多分类计 算处理的过程包括: 对所述编码层编码得到的编码文本进行多分类 计算, 并将语义空间转 化到词表空间。 8.一种文本纠错的对抗训练和推理装置, 其特 征在于, 包括: 嵌入处理单元, 用于获取训练集的文本样本, 将所述文本样本输入嵌入层进行文本转 化处理, 得到嵌入文本; 编码处理单元, 用于将所述嵌入文本 输入编码层进行编码得到编码文本; 第一计算单元, 用于将所述编码文本分别 输入检测层和纠错层进行逻辑 回归计算处理 和多分类计算处理, 得到所述文本样本中每一字符对应的纠错分数和所述文本样本对应的 正确样本; 第二计算单元, 用于在每T个批次的数据迭代训练后进行对抗样本生成, 并将生成的对 抗样本加入所述训练集继续进行训练, 得到文本纠错模型; 其中, 对抗样本生成的步骤包括: 遍历所述文本样本中的所有字符, 对每一字符, 选取 其在混淆字典中的易错字 符进行替换, 形成一个候选样本, 最终产生多个候选样本; 计算各 所述候选样本的混淆度, 根据各所述候选样本的混淆度进行排序, 提取混淆度最大的前K个 候选样本作为输出; 样本推理单元, 用于将待纠 错文本输入至所述文本纠 错模型进行推理, 得到所述待纠 错文本对应的正确样本 。 9.一种计算机设备, 其特征在于, 包括存储器、 处理器及存储在所述存储器上并可在所 述处理器上运行的计算机程序, 所述处理器执行所述计算机程序时实现如权利要求 1至7任 一项所述的文本纠错的对抗训练和推理方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的文本纠错的对抗 训练和推理方法。权 利 要 求 书 2/2 页 3 CN 115358222 A 3

PDF文档 专利 一种文本纠错的对抗训练和推理方法、装置及相关介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本纠错的对抗训练和推理方法、装置及相关介质 第 1 页 专利 一种文本纠错的对抗训练和推理方法、装置及相关介质 第 2 页 专利 一种文本纠错的对抗训练和推理方法、装置及相关介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。