全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211056940.3 (22)申请日 2022.08.31 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 殷子墨  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 廖慧贤 (51)Int.Cl. G06F 40/166(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) (54)发明名称 文本增强方法、 电子设备、 存 储介质 (57)摘要 本申请涉及人工智能技术领域, 尤其是涉及 一种文本增强方法、 电子设备、 存储介质。 本申请 文本增强方法中, 需要先获取原始文本信息, 并 对原始文本信息进行文本切分处理, 得到原始文 本字段, 再经由语 言处理模型对原始文本字段进 行删改处理, 得到目标文本字段, 语言处理模型 由基础语言模型通过优化训练得到。 进一步, 根 据删改处理后得到的目标文本字段, 生成目标文 本信息, 从而将原始文本信息与目标文本信息进 行整合, 形成增强文本信息。 本申请的文本增强 方法, 以语言处理模型对原始文本字段进行删改 处理, 得到目标文本字段, 再将原始文本信息与 目标文本信息进行整合, 形成增强文本信息, 在 文本增强的过程中提高了样本数据的质量。 权利要求书2页 说明书14页 附图4页 CN 115270736 A 2022.11.01 CN 115270736 A 1.一种文本增强方法, 其特 征在于, 包括: 获取原始文本信息, 并对所述原 始文本信息进行文本切分处 理, 得到原 始文本字段; 经由语言处理模型对所述原始文本字段进行删改处理, 得到目标文本字段, 所述语言 处理模型由基础语言模型通过优化训练得到; 根据删改处 理后得到的所述目标文本 字段, 生成目标文本信息; 将所述原 始文本信息与所述目标文本信息进行整合, 形成增强文本信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述经由语言处理模型对所述原始文本字 段进行删改处 理, 得到目标文本 字段, 包括: 基于预设删改基准, 从所述原 始文本字段中确定删改目标字段; 经由所述语言处 理模型, 在所述原 始文本字段中对所述删改目标字段进行删改处 理; 将删改处 理后的所述原 始文本字段确定为目标文本 字段。 3.根据权利要求2所述的方法, 其特征在于, 所述基于预设删改基准, 从所述原始文本 字段中确定删改目标字段, 包括: 当所述预设删改基准 为关键词汇删改, 对所述原 始文本字段进行词性 解析; 将所述词性 解析中认定为关键词汇的所述原 始文本字段, 划分为所述删改目标字段。 4.根据权利要求1所述的方法, 其特征在于, 所述经由语言处理模型对所述原始文本字 段进行删改处 理之前, 所述方法还 包括: 获取成句文集, 所述成句文集 为句结构完整的文本信息; 获取不成句文集, 所述 不成句文集 为句结构不完整的文本信息; 基于所述成句文集与所述不成句文集, 对所述基础语言模型进行所述优化训练, 得到 所述语言处 理模型。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述成句文集与所述不成句文 集, 对所述基础语言模型进行优化训练, 得到所述语言处 理模型, 包括: 将所述成句文集与所述 不成句文集输入所述基础语言模型进行迭代训练; 每一轮所述迭代训练后, 计算所述基础语言模型的成句识别准确率并对所述基础语言 模型进行 更新; 统计所述成句识别准确率在每一轮迭代训练后的变化情况, 当所述成句识别准确率收 敛于定值, 停止迭代训练并得到训练好的所述语言处 理模型。 6.根据权利要求1至5任一项所述的方法, 其特征在于, 所述根据删改处理后得到的所 述目标文本 字段, 生成目标文本信息之前, 所述方法还 包括: 经由所述语言处 理模型对所述原 始文本信息进行成句概 率识别, 得到原 始成句概 率。 7.根据权利要求6所述的方法, 其特征在于, 所述根据删改处理后得到的所述目标文本 字段, 生成目标文本信息, 包括: 所述根据删改处 理后得到的所述目标文本 字段, 形成待定文本信息; 经由所述语言处 理模型对所述待定文本信息进行成句概 率识别, 得到目标成句概 率; 当所述目标成句概率与所述原始成句概率之间的差值小于第 一预设阈值, 将所述待定 文本信息确定为目标文本信息 。 8.根据权利要求1所述的方法, 其特征在于, 所述将所述原始文本信 息与所述目标文本 信息进行整合, 形成增强文本信息, 包括:权 利 要 求 书 1/2 页 2 CN 115270736 A 2经由语义识别模型对所述原 始文本信息进行语义识别, 得到原 始语义信息; 经由语义识别模型对所述目标文本信息进行语义识别, 得到目标语义信息; 将所述原 始语义信息与所述目标语义信息进行比对, 得到语义比对结果; 将所述语义比对结果一致的所述原始文本信 息与所述目标文本信 息进行整合, 形成增 强文本信息 。 9.一种电子设备, 其特征在于, 包括: 存储器、 处理器, 所述存储器存储有计算机程序, 所述处理器执行所述计算机程序时实现如权利要求1至8中任意 一项所述的文本增强方法。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计 算机程序被处 理器执行实现如权利要求1至8中任意 一项所述的文本增强方法。权 利 要 求 书 2/2 页 3 CN 115270736 A 3

PDF文档 专利 文本增强方法、电子设备、存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本增强方法、电子设备、存储介质 第 1 页 专利 文本增强方法、电子设备、存储介质 第 2 页 专利 文本增强方法、电子设备、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。