全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210975544.4 (22)申请日 2022.08.15 (71)申请人 清华大学深圳国际研究生院 地址 518055 广东省深圳市南 山区西丽 街 道深圳大 学城清华校区A栋二楼 (72)发明人 郑海涛 马仕镕 李映辉 江勇  夏树涛 肖喜  (74)专利代理 机构 深圳新创友知识产权代理有 限公司 4 4223 专利代理师 江耀锋 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称 一种错别字 检测及纠正方法 (57)摘要 本发明公开了一种错别字检测及纠正方法, 包括以下步骤: 获取对比学习模型, 包括以下模 块: 主模块和辅助模块, 主模块为预训练语言模 型, 辅助模块包括: 字音编码模块、 字形编码模块 和字典编码模块; 模型训练: 使用错别字纠正任 务来训练主模块, 加入对比学习任务, 分别针对 字音、 字形和字典知识构造所需的正例和负例, 辅助模块分别对字音、 字形和字典释义的信息编 码, 指导主模块学习字音、 字形 以及字词定义和 常识知识, 使主模块蕴含错别字检测与纠正任务 所需的知识; 模型推理: 只保留主模块进行推理, 以保证模型的推理效率。 本发明提升了错别字检 测和纠正效果, 使之可以发现现有方法难以发现 的错别字, 进 而可以有效的对错别字进行纠正。 权利要求书2页 说明书8页 附图1页 CN 115310432 A 2022.11.08 CN 115310432 A 1.一种错别字检测及纠正方法, 其特 征在于, 包括以下步骤: S1、 获取对比学习模型, 所述对比学习模型包括以下模块: 主模块和辅助模块, 所述主 模块为预训练语言模型, 所述辅助模块包括: 字音编码模块、 字形编码模块和字典编码模 块; S2、 模型训练: 使用错别字纠正任务来直接训练主模块, 并加入对比学习任务, 分别针 对字音、 字形和字典知识构造对比学习 所需的正例和负例, 并使用辅助模块分别对汉字的 字音、 字形和字典释义的信息进 行编码, 从而指导主模块学习汉字的字音、 字形以及字词定 义和常识知识, 从而使得训练阶段结束后主模块已经蕴含了错别字检测与纠正任务所需的 知识; S3、 模型推理: 只保留主模块进行推理, 以保证模型的推理效率。 2.如权利要求1所述错别字检测及纠正方法, 其特征在于, 步骤S2中的对比学习任务包 括: 字音对比学习任务、 字形对比学习任务、 字典对比学习任务, 所述字音对比学习任务拉 近相似发音的字符在模型表示空间中的距离而推开不同发音的字符之 间的距离, 所述字形 对比学习任务训练模型在表示空间中能够区分字形相似的汉字和字形不相似的汉字, 所述 字典对比学习任务增强模型理解字词定义和常识知识的能力, 并引导模型在检测及纠正拼 写错误时与相关的字词定义和常识知识联系起 来。 3.如权利要求2所述错别字检测及纠正方法, 其特征在于, 所述字典对比学习 任务的训 练过程包括如下步骤: A1:获得有错别字的句子X, 以及该句子对应的不含错别字的正确句子, 确定错别字所 在位置对应的词组; A2:获得该词组在字典中的释义句作为字典对比学习任务的正例 在字典中随机选 择其他词语对应的N个释义句作为该任务的负例 A3:所述有错别字的句子X通过主模块的编码器得到对应的句子中每个字符的表示Do, 正例和负例的释义句通过所述辅助模块中的字典编码模块分别得到句子中每个字符的表 示Dp和 A4: 计算所述有错别字的句子X与正例和负例之间的相似度:获取错别字所在的索引s 所在位置的词组的全部索引 {s,s+1,...,s+w}, 通过平均池化方式得到所述有错别字的句 子X、 正例释义句和负例释义句对应的句子级表 示后, 计算余弦相似度作为所述有错别字的 句子X与相应正负例释义句之间的相似性。 4.如权利要求3所述错别字检测及纠正方法, 其特征在于, 步骤A4中所述相似度由以下 公式表示: 其中, w表示错别字所在位置词组包含的字符数量, p表示对比学习中的正例, ni表示对 比学习中的第i个负例。 5.如权利要求2所述错别字检测及纠 正方法, 其特征在于, 所述字音对比学习任务、 字 形对比学习任务、 字典对比学习任务均使用InfoNCE作为目标函数, 所述预训练语 言模型为权 利 要 求 书 1/2 页 2 CN 115310432 A 2BERT预训练语言模型。 6.如权利要求2所述错别字检测及纠正方法, 其特征在于, 所述字音对比学习 任务的训 练过程包括以下步骤: B1:获得含有错别字的句子X; B2:将其中的错别字替换为拼音相似的字并获得新的句子, 将所述句子作为字音对比 学习任务的正例 将错别字替换为 其他随机汉字获得N个负例 B3:将所述有错别字的句子X通过主模块的编码器得到其对应的句子中每个字符的表 示Po并构造该任务的正例和负例,正例和负例的释义句通过所述辅助模块中的字音编码模 块分别得到句子中每 个字符的表示Pp以及 B4:计算所述有错别字的句子X与正例和所有负例在字音层面表示的相似度。 7.如权利要求6所述错别字检测及纠正方法, 其特征在于, 步骤B4中所述相似度由以下 公式表示: 其中s表示被修改的汉字所在的位置 。 8.如权利要求2所述错别字检测及纠正方法, 其特征在于, 所述字形对比学习 任务的训 练过程包括以下步骤: C1:获得含有错别字的句子X; C2:将所述有错别字的句子X中的错别字替换为字形相似的字并将新的句子作为字形 对比学习任务的正例 另外将错别字替换为 其他随机汉字获得N个负例 C3:所述有错别字的句子X通过主模块编码器、 正例和 负例通过辅助模块中的字形编码 模块分别得到对应的句子中每 个字符的表示Vo, Vp以及 C4:分别计算所述有错别字的句子X与正例和负例在字音层面表示的相似度。 9.如权利要求8所述错别字检测及纠正方法, 其特征在于, 步骤C4中所述相似度由以下 公式表示: 其中s表示被修改的汉字所在的位置 。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时能实现权利要求1 ‑9任一项所述的错别字检测及纠正方法。权 利 要 求 书 2/2 页 3 CN 115310432 A 3

PDF文档 专利 一种错别字检测及纠正方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种错别字检测及纠正方法 第 1 页 专利 一种错别字检测及纠正方法 第 2 页 专利 一种错别字检测及纠正方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。