说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111658558.5 (22)申请日 2021.12.3 0 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 郭冬杰 竺博 王士进 汪洋  盛志超 魏思  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 代理人 刘希 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/284(2020.01) G06F 40/268(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本纠错方法及相关装置、 设备和存 储介质 (57)摘要 本申请公开了一种文本纠错方法及相关装 置、 设备和存储介质, 该方法包括: 对待纠错语句 中文本单元进行切分, 得到组成文本单元的若干 字符切片; 获取各个字符切片 的切片特征表示; 其中, 切片特征表示至少包括字符切片本身所含 字符的第一特征信息; 基于组成各个文本单元的 字符切片的切片特征表示进行拼写检测, 得到各 个文本单元的检测结果; 基于待纠错语句中各个 文本单元的检测结果, 得到待纠错语句对应的纠 正语句。 上述方案, 能够实现自动拼写纠错, 并提 升拼写纠错的准确性。 权利要求书2页 说明书11页 附图4页 CN 114357981 A 2022.04.15 CN 114357981 A 1.一种文本纠错方法, 其特 征在于, 包括: 对待纠错语句中文本单 元进行切分, 得到组成所述文本单 元的若干 字符切片; 获取各个所述字符切片的切片特征表示; 其中, 所述切片特征表示至少包括所述字符 切片本身所含字符的第一特 征信息; 基于组成各个所述文本单元的字符切片的切片特征表示进行拼写检测, 得到各个所述 文本单元的检测结果; 基于所述待纠错语句中各个所述文本单元的检测结果, 得到所述待纠错语句对应的纠 正语句。 2.根据权利要求1所述的方法, 其特征在于, 所述切片特征表示还包括所述字符切片的 置信度的第二特 征信息, 且所述置信度表示所述字符切片拼写错 误的可能性。 3.根据权利要求2所述的方法, 其特征在于, 所述第 二特征信 息由所述字符切片的置信 度相关的参考信息经特征提取得到, 且所述参考信息包括以下至少一者: 所述字符切片的 长度、 所述字 符切片的常见程度、 所述字符切片所属文本单元的常见程度、 所述字符切片所 属文本单 元的词性。 4.根据权利要求1至3任一项所述的方法, 其特征在于, 所述检测结果包括所述文本单 元应分别被纠错 为若干预设文本单 元的预测概 率值。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述待纠错语句中各个所述文本 单元的检测结果, 得到所述待纠错语句对应的纠正语句, 包括: 响应于所述文本单元与所述文本单元的参考文本单元不一致, 将所述文本单元作为待 纠错文本单元; 其中, 所述参考文本单元为所述文本单元应分别被纠错为所述若干预设文 本单元中所述预测概 率值最大的预设文本单 元; 将所述待纠错文本单元对应的若干预设文本单元, 分别作为候选文本单元替换所述待 纠错文本单 元, 得到若干候选语句; 基于各个所述 候选语句, 得到所述纠错语句对应的纠正语句。 6.根据权利要求5所述的方法, 其特征在于, 所述基于各个所述候选语句, 得到所述纠 错语句对应的纠正语句, 包括: 获取各个所述 候选语句的困惑度; 基于所述困惑度, 选择 所述候选语句作为所述纠正语句。 7.根据权利要求1所述的方法, 其特征在于, 所述检测结果是利用纠错网络检测得到 的, 且所述纠错网络在基于第一样本语句进行 预训练之后, 再基于第二样本语句训练得到; 其中, 所述第 一样本语句基于样本语料构造得到, 所述第 二样本语句由现实采集得到, 且所述第一样本语句、 所述第二样本语句均包含错误拼写文本单元, 且所述第一样本语句、 所述第二样本语句均标注有所述 错误拼写文本单元对应的正确拼写 文本单元。 8.根据权利要求7所述的方法, 其特征在于, 所述样本语料包括候选样本语句, 所述第 一样本语句的获取步骤 包括: 统计所述 候选样本语句中样本文本单 元拼写时出现错 误的统计概 率值; 基于所述统计概 率值选择至少一个所述样本文本单 元, 作为待编辑文本单 元; 将所述待编辑文本单 元重编辑 为拼写错误, 得到所述第一样本语句。 9.根据权利要求1所述的方法, 其特征在于, 所述对待纠 错语句中文本单元进行切分,权 利 要 求 书 1/2 页 2 CN 114357981 A 2得到组成所述文本单 元的若干 字符切片, 包括: 对所述待纠错语句中所述文本单元所含的字符进行分类, 得到各个所述字符的切片类 别; 其中, 所述切片类别为切片头、 切片中、 切片尾、 单独切片中任一 者; 基于各个所述字符的切片类别, 得到组成所述文本单 元的若干 字符切片。 10.一种文本纠错装置, 其特 征在于, 包括: 文本切分模块, 用于对待纠 错语句中文本单元进行切分, 得到组成所述文本单元的若 干字符切片; 特征获取模块, 用于获取各个所述字符切片的切片特征表示; 其中, 所述切片特征表示 至少包括所述字符切片本身所含字符的第一特 征信息; 拼写检测模块, 用于基于组成各个所述文本单元的字符切片的切片特征表示进行拼写 检测, 得到各个所述文本单 元的检测结果; 语句纠正模块, 用于基于所述待纠 错语句中各个所述文本单元的检测结果, 得到所述 待纠错语句对应的纠正语句。 11.一种电子设备, 其特征在于, 包括相互耦接的存储器和 处理器, 所述存储器中存储 有程序指 令, 所述处理器用于执行所述程序指 令以实现权利要求 1至9任一项 所述的文本纠 错方法。 12.一种计算机可读存储介质, 其特征在于, 存储有能够被处理器运行的程序指令, 所 述程序指令用于实现权利要求1至9任一项所述的文本纠错方法。权 利 要 求 书 2/2 页 3 CN 114357981 A 3

.PDF文档 专利 文本纠错方法及相关装置、设备和存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本纠错方法及相关装置、设备和存储介质 第 1 页 专利 文本纠错方法及相关装置、设备和存储介质 第 2 页 专利 文本纠错方法及相关装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:51:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。