说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111677576.8 (22)申请日 2021.12.31 (71)申请人 中科讯飞互联 (北京) 信息科技有限 公司 地址 100089 北京市海淀区西北旺东路10 号院东区5号楼三层31 1-2 申请人 河北省讯飞人工智能研究院 科大讯飞股份有限公司 (72)发明人 杨子清 林旻 崔一鸣 伍大勇 陈志刚 (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 秦卫中 (51)Int.Cl. G06F 40/30(2020.01)G06F 40/289(2020.01) G06F 40/232(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本纠错方法及装置、 存 储介质及电子设备 (57)摘要 本申请提供了一种文本纠错方法及装置、 存 储介质及电子设备, 涉及文本处理技术领域。 该 文本纠错方法包括: 利用错误检测模型, 判断待 纠错文本是否有误; 若待纠错文本有误, 利用错 误修正模型, 确定待纠错文本对应的修正文本, 其中, 错误检测模型由对抗生 成网络中的判别器 训练得到, 错误修正模型由对抗生成 网络中的生 成器训练得到。 该文本纠错方法只针对有误文本 进行纠错任务, 减少了错误修正模型的计算量, 提高了文本纠错系统的运行速度。 权利要求书2页 说明书14页 附图7页 CN 114492453 A 2022.05.13 CN 114492453 A 1.一种文本纠错方法, 其特征在于, 应用于基于对抗生成网络的文本纠错系统, 所述方 法包括: 利用错误检测模型, 判断待纠错文本是否有误; 若所述待纠错文本有误, 利用错误修正模型, 确定所述待纠错文本对应的修正文本, 其 中, 所述错误检测模型 由所述对抗生成网络中的判别器训练得到, 所述错误修正模型 由所 述对抗生成网络中的生成器训练得到 。 2.根据权利要求1所述的文本纠 错方法, 其特征在于, 所述利用错误检测模型, 判断待 纠错文本是否有误, 包括: 对所述待纠错文本进行划分, 得到所述待纠错文本对应的M个分句, M为 正整数; 将所述M个分句输入所述 错误检测模型, 得到所述M个分句各自对应的检测结果; 基于所述M个分句各自对应的检测结果, 分别判断所述M个分句是否有误; 其中, 所述若所述待纠错文本有误, 利用错误修正模型, 确定所述待纠错文本对应的修 正文本, 包括: 若所述M个分句中的N个分句有误, 利用所述错误修正模型, 分别确定所述N个分句各自 对应的修 正语句, N 为小于或等于 M的正整数; 基于所述M个分句之间的顺序信息, 将所述N个分句各自对应的修正语句与所述M个分 句中的无误分句重组, 生成所述 修正文本。 3.根据权利要求2所述的文本纠错方法, 其特征在于, 所述待纠错文本包括待纠错汉语 文本, 所述利用所述 错误修正模型, 分别确定所述 N个分句各自对应的修 正语句, 包括: 针对所述 N个分句中的每 个分句, 确定所述分句中的汉字各自对应的字特 征向量; 利用所述错误修正模型, 基于所述分句中的汉字各自对应的字特征向量和所述分句的 语义信息, 确定所述分句中的汉字各自对应的至少一个扩展词; 利用所述错误修正模型, 基于所述分句中的汉字各自对应的至少一个扩展词, 确定所 述分句中的汉字各自对应的修 正结果; 利用所述错误修正模型, 基于所述分句中的汉字各自对应的修正结果, 确定所述分句 对应的修 正语句。 4.根据权利要求3所述的文本纠错方法, 其特征在于, 所述基于所述分句中的汉字各自 对应的字特征向量和所述分句的语义信息, 确定所述分句中的汉字各自对应的至少一个扩 展词, 包括: 针对所述分句中的每 个汉字, 基于所述分句的语义信息和所述汉字对应的字特征向量, 确定所述汉字对应的P个候 选扩展词和所述P个候选扩展词各自对应的使用概 率数据, P为 正整数; 基于预设使用概率阈值和所述P个候选扩展词各自对应的使用概率数据, 从所述P个候 选扩展词中选出 所述汉字对应的所述至少一个扩展词。 5.根据权利要求3或4所述的文本纠 错方法, 其特征在于, 所述基于所述分句中的汉字 各自对应的至少一个扩展词, 确定所述分句中的汉字各自对应的修 正结果, 包括: 针对所述分句中的每 个汉字, 基于所述汉字对应的至少一个扩展词, 确定所述汉字是否有误;权 利 要 求 书 1/2 页 2 CN 114492453 A 2若所述汉字有误, 基于所述汉字对应的至少一个扩展词, 确定所述汉字对应的修正结 果; 若所述汉字无误, 将所述汉字作为所述汉字对应的修 正结果。 6.根据权利要求2至4任一项所述的文本纠错方法, 其特 征在于, 还 包括: 将所述N个分句输入所述 错误检测模型, 得到所述 N个分句各自对应的错 误位置数据; 基于所述N个分句各自对应的错误位置数据以及所述N个分句各自对应的修正语句, 生 成所述N个分句各自对应的修 正语句的修 正标记信息 。 7.根据权利要求1至4任一项所述的文本纠 错方法, 其特征在于, 在所述利用错误检测 模型, 判断待纠错文本是否有误之前, 还 包括: 确定S个训练集, 其中, 所述训练集包括正确文本样本、 所述正确文本样本对应的错误 文本样本、 以及所述 错误文本样本对应的错 误详情标签; 基于所述S个训练集训练所述生成器和所述判别器, 得到所述错误检测模型和所述错 误修正模型。 8.根据权利要求7所述的文本纠 错方法, 其特征在于, 所述基于所述S个训练集训练所 述生成器和所述判别器, 得到所述 错误检测模型和所述 错误修正模型, 包括: 将所述S个训练集包括的S个错误文本样本输入所述生成器, 得到所述S个错误文本样 本各自对应的纠错文本样本; 针对所述S个错误文本样本中的每个错误文本样本, 将所述错误文本样本对应的纠 错 文本样本和所述错误文本样本对应的正确文本样本输入所述判别器, 得到所述错误文本样 本对应的纠错文本样本的文本正确概率, 基于所述错误文本样本各自对应的纠错文本样本 的文本正确概 率, 调整所述 生成器和/或所述判别器的参数; 重复利用所述S个训练集训练, 直至满足预设训练停止条件, 得到所述错误检测模型和 所述错误修正模型。 9.一种文本纠错装置, 其特征在于, 应用于基于对抗生成网络的文本纠错系统, 所述装 置包括: 判断模块, 用于利用错 误检测模型, 判断待纠错文本是否有误; 修正文本确定模块, 用于在所述待纠错文本有误 时, 利用错误修正模型, 确定所述待纠 错文本对应的修正文本, 其中, 所述错误检测模型 由所述对抗生成网络中的判别器训练得 到, 所述错误修正模型由所述对抗 生成网络中的生成器训练得到 。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计 算机程序用于执 行上述权利要求1至8任一项所述的文本纠错方法。 11.一种电子设备, 其特 征在于, 所述电子设备包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 所述处理器, 用于执 行上述权利要求1至8任一项所述的文本纠错方法。权 利 要 求 书 2/2 页 3 CN 114492453 A 3
专利 文本纠错方法及装置、存储介质及电子设备
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 21:51:08
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GB-T 26119-2010 绿色制造 机械产品生命周期评价 总则.pdf
T-CEC 725—2022 户用光伏发电与储能一体化系统技术要求.pdf
数据备份与恢复管理规范.pdf
GB-T 24498-2009 建筑门窗、幕墙用密封胶条.pdf
GB-T 35164-2017 用于水泥、砂浆和混凝土中的石灰石粉.pdf
GB-T 22082-2017 预制混凝土衬砌管片.pdf
GB-T 31467-2023 电动汽车用锂离子动力电池包和系统电性能试验方法.pdf
GB-T 20834-2014 发电电动机基本技术条件.pdf
GB-T 40856-2021 车载信息交互系统信息安全技术要求及试验方法.pdf
GB-T 11615-2010 地热资源地质勘查规范.pdf
T-CDJC 003—2022 交联聚乙烯卷材浮筑楼板隔声保温系统应用技术标准.pdf
T-CAMETA 001006.3—2022 工业网关 第3部分:面向数控系统的工业网关测评技术规范.pdf
DB34-T 3264-2018 公路泥岩路基施工及质量检验评定规范 安徽省.pdf
GB-T 38542-2020 信息安全技术 基于生物特征识别的移动智能终端身份鉴别技术框架.pdf
网络安全事件应急演练指南(试行) 2022 .pdf
GB-T 18921-2019 城市污水再生利用 景观环境用水水质.pdf
等保三级-安全技术-应用系统.doc
DB3402-T 25-2022 12355青少年服务台服务规范 芜湖市.pdf
GB 50057-2010建筑物防雷设计规范.pdf
GB/T 1.2-2020 标准化工作导则 第2部分 以ISO IEC标准化文件为基础的标准化文件起草规则.pdf
1
/
3
24
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。