说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111677576.8 (22)申请日 2021.12.31 (71)申请人 中科讯飞互联 (北京) 信息科技有限 公司 地址 100089 北京市海淀区西北旺东路10 号院东区5号楼三层31 1-2 申请人 河北省讯飞人工智能研究院   科大讯飞股份有限公司 (72)发明人 杨子清 林旻 崔一鸣 伍大勇  陈志刚  (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 秦卫中 (51)Int.Cl. G06F 40/30(2020.01)G06F 40/289(2020.01) G06F 40/232(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本纠错方法及装置、 存 储介质及电子设备 (57)摘要 本申请提供了一种文本纠错方法及装置、 存 储介质及电子设备, 涉及文本处理技术领域。 该 文本纠错方法包括: 利用错误检测模型, 判断待 纠错文本是否有误; 若待纠错文本有误, 利用错 误修正模型, 确定待纠错文本对应的修正文本, 其中, 错误检测模型由对抗生 成网络中的判别器 训练得到, 错误修正模型由对抗生成 网络中的生 成器训练得到。 该文本纠错方法只针对有误文本 进行纠错任务, 减少了错误修正模型的计算量, 提高了文本纠错系统的运行速度。 权利要求书2页 说明书14页 附图7页 CN 114492453 A 2022.05.13 CN 114492453 A 1.一种文本纠错方法, 其特征在于, 应用于基于对抗生成网络的文本纠错系统, 所述方 法包括: 利用错误检测模型, 判断待纠错文本是否有误; 若所述待纠错文本有误, 利用错误修正模型, 确定所述待纠错文本对应的修正文本, 其 中, 所述错误检测模型 由所述对抗生成网络中的判别器训练得到, 所述错误修正模型 由所 述对抗生成网络中的生成器训练得到 。 2.根据权利要求1所述的文本纠 错方法, 其特征在于, 所述利用错误检测模型, 判断待 纠错文本是否有误, 包括: 对所述待纠错文本进行划分, 得到所述待纠错文本对应的M个分句, M为 正整数; 将所述M个分句输入所述 错误检测模型, 得到所述M个分句各自对应的检测结果; 基于所述M个分句各自对应的检测结果, 分别判断所述M个分句是否有误; 其中, 所述若所述待纠错文本有误, 利用错误修正模型, 确定所述待纠错文本对应的修 正文本, 包括: 若所述M个分句中的N个分句有误, 利用所述错误修正模型, 分别确定所述N个分句各自 对应的修 正语句, N 为小于或等于 M的正整数; 基于所述M个分句之间的顺序信息, 将所述N个分句各自对应的修正语句与所述M个分 句中的无误分句重组, 生成所述 修正文本。 3.根据权利要求2所述的文本纠错方法, 其特征在于, 所述待纠错文本包括待纠错汉语 文本, 所述利用所述 错误修正模型, 分别确定所述 N个分句各自对应的修 正语句, 包括: 针对所述 N个分句中的每 个分句, 确定所述分句中的汉字各自对应的字特 征向量; 利用所述错误修正模型, 基于所述分句中的汉字各自对应的字特征向量和所述分句的 语义信息, 确定所述分句中的汉字各自对应的至少一个扩展词; 利用所述错误修正模型, 基于所述分句中的汉字各自对应的至少一个扩展词, 确定所 述分句中的汉字各自对应的修 正结果; 利用所述错误修正模型, 基于所述分句中的汉字各自对应的修正结果, 确定所述分句 对应的修 正语句。 4.根据权利要求3所述的文本纠错方法, 其特征在于, 所述基于所述分句中的汉字各自 对应的字特征向量和所述分句的语义信息, 确定所述分句中的汉字各自对应的至少一个扩 展词, 包括: 针对所述分句中的每 个汉字, 基于所述分句的语义信息和所述汉字对应的字特征向量, 确定所述汉字对应的P个候 选扩展词和所述P个候选扩展词各自对应的使用概 率数据, P为 正整数; 基于预设使用概率阈值和所述P个候选扩展词各自对应的使用概率数据, 从所述P个候 选扩展词中选出 所述汉字对应的所述至少一个扩展词。 5.根据权利要求3或4所述的文本纠 错方法, 其特征在于, 所述基于所述分句中的汉字 各自对应的至少一个扩展词, 确定所述分句中的汉字各自对应的修 正结果, 包括: 针对所述分句中的每 个汉字, 基于所述汉字对应的至少一个扩展词, 确定所述汉字是否有误;权 利 要 求 书 1/2 页 2 CN 114492453 A 2若所述汉字有误, 基于所述汉字对应的至少一个扩展词, 确定所述汉字对应的修正结 果; 若所述汉字无误, 将所述汉字作为所述汉字对应的修 正结果。 6.根据权利要求2至4任一项所述的文本纠错方法, 其特 征在于, 还 包括: 将所述N个分句输入所述 错误检测模型, 得到所述 N个分句各自对应的错 误位置数据; 基于所述N个分句各自对应的错误位置数据以及所述N个分句各自对应的修正语句, 生 成所述N个分句各自对应的修 正语句的修 正标记信息 。 7.根据权利要求1至4任一项所述的文本纠 错方法, 其特征在于, 在所述利用错误检测 模型, 判断待纠错文本是否有误之前, 还 包括: 确定S个训练集, 其中, 所述训练集包括正确文本样本、 所述正确文本样本对应的错误 文本样本、 以及所述 错误文本样本对应的错 误详情标签; 基于所述S个训练集训练所述生成器和所述判别器, 得到所述错误检测模型和所述错 误修正模型。 8.根据权利要求7所述的文本纠 错方法, 其特征在于, 所述基于所述S个训练集训练所 述生成器和所述判别器, 得到所述 错误检测模型和所述 错误修正模型, 包括: 将所述S个训练集包括的S个错误文本样本输入所述生成器, 得到所述S个错误文本样 本各自对应的纠错文本样本; 针对所述S个错误文本样本中的每个错误文本样本, 将所述错误文本样本对应的纠 错 文本样本和所述错误文本样本对应的正确文本样本输入所述判别器, 得到所述错误文本样 本对应的纠错文本样本的文本正确概率, 基于所述错误文本样本各自对应的纠错文本样本 的文本正确概 率, 调整所述 生成器和/或所述判别器的参数; 重复利用所述S个训练集训练, 直至满足预设训练停止条件, 得到所述错误检测模型和 所述错误修正模型。 9.一种文本纠错装置, 其特征在于, 应用于基于对抗生成网络的文本纠错系统, 所述装 置包括: 判断模块, 用于利用错 误检测模型, 判断待纠错文本是否有误; 修正文本确定模块, 用于在所述待纠错文本有误 时, 利用错误修正模型, 确定所述待纠 错文本对应的修正文本, 其中, 所述错误检测模型 由所述对抗生成网络中的判别器训练得 到, 所述错误修正模型由所述对抗 生成网络中的生成器训练得到 。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计 算机程序用于执 行上述权利要求1至8任一项所述的文本纠错方法。 11.一种电子设备, 其特 征在于, 所述电子设备包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 所述处理器, 用于执 行上述权利要求1至8任一项所述的文本纠错方法。权 利 要 求 书 2/2 页 3 CN 114492453 A 3

.PDF文档 专利 文本纠错方法及装置、存储介质及电子设备

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本纠错方法及装置、存储介质及电子设备 第 1 页 专利 文本纠错方法及装置、存储介质及电子设备 第 2 页 专利 文本纠错方法及装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:51:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。