专利文本增强方法、电子设备、存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211056940.3 (22)申请日 2022.08.31 (71)申请人中国平安人寿保险股份有限公司地址 518000 广东省深圳市福田区福田街道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人殷子墨　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师廖慧贤 (51)Int.Cl. G06F 40/166(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) (54)发明名称文本增强方法、电子设备、存储介质 (57)摘要本申请涉及人工智能技术领域，尤其是涉及一种文本增强方法、电子设备、存储介质。本申请文本增强方法中，需要先获取原始文本信息，并对原始文本信息进行文本切分处理，得到原始文本字段，再经由语言处理模型对原始文本字段进行删改处理，得到目标文本字段，语言处理模型由基础语言模型通过优化训练得到。进一步，根据删改处理后得到的目标文本字段，生成目标文本信息，从而将原始文本信息与目标文本信息进行整合，形成增强文本信息。本申请的文本增强方法，以语言处理模型对原始文本字段进行删改处理，得到目标文本字段，再将原始文本信息与目标文本信息进行整合，形成增强文本信息，在文本增强的过程中提高了样本数据的质量。权利要求书2页说明书14页附图4页 CN 115270736 A 2022.11.01 CN 115270736 A 1.一种文本增强方法，其特征在于，包括：获取原始文本信息，并对所述原始文本信息进行文本切分处理，得到原始文本字段；经由语言处理模型对所述原始文本字段进行删改处理，得到目标文本字段，所述语言处理模型由基础语言模型通过优化训练得到；根据删改处理后得到的所述目标文本字段，生成目标文本信息；将所述原始文本信息与所述目标文本信息进行整合，形成增强文本信息。 2.根据权利要求1所述的方法，其特征在于，所述经由语言处理模型对所述原始文本字段进行删改处理，得到目标文本字段，包括：基于预设删改基准，从所述原始文本字段中确定删改目标字段；经由所述语言处理模型，在所述原始文本字段中对所述删改目标字段进行删改处理；将删改处理后的所述原始文本字段确定为目标文本字段。 3.根据权利要求2所述的方法，其特征在于，所述基于预设删改基准，从所述原始文本字段中确定删改目标字段，包括：当所述预设删改基准为关键词汇删改，对所述原始文本字段进行词性解析；将所述词性解析中认定为关键词汇的所述原始文本字段，划分为所述删改目标字段。 4.根据权利要求1所述的方法，其特征在于，所述经由语言处理模型对所述原始文本字段进行删改处理之前，所述方法还包括：获取成句文集，所述成句文集为句结构完整的文本信息；获取不成句文集，所述不成句文集为句结构不完整的文本信息；基于所述成句文集与所述不成句文集，对所述基础语言模型进行所述优化训练，得到所述语言处理模型。 5.根据权利要求4所述的方法，其特征在于，所述基于所述成句文集与所述不成句文集，对所述基础语言模型进行优化训练，得到所述语言处理模型，包括：将所述成句文集与所述不成句文集输入所述基础语言模型进行迭代训练；每一轮所述迭代训练后，计算所述基础语言模型的成句识别准确率并对所述基础语言模型进行更新；统计所述成句识别准确率在每一轮迭代训练后的变化情况，当所述成句识别准确率收敛于定值，停止迭代训练并得到训练好的所述语言处理模型。 6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据删改处理后得到的所述目标文本字段，生成目标文本信息之前，所述方法还包括：经由所述语言处理模型对所述原始文本信息进行成句概率识别，得到原始成句概率。 7.根据权利要求6所述的方法，其特征在于，所述根据删改处理后得到的所述目标文本字段，生成目标文本信息，包括：所述根据删改处理后得到的所述目标文本字段，形成待定文本信息；经由所述语言处理模型对所述待定文本信息进行成句概率识别，得到目标成句概率；当所述目标成句概率与所述原始成句概率之间的差值小于第一预设阈值，将所述待定文本信息确定为目标文本信息。 8.根据权利要求1所述的方法，其特征在于，所述将所述原始文本信息与所述目标文本信息进行整合，形成增强文本信息，包括：权　利　要　求　书 1/2 页 2 CN 115270736 A 2经由语义识别模型对所述原始文本信息进行语义识别，得到原始语义信息；经由语义识别模型对所述目标文本信息进行语义识别，得到目标语义信息；将所述原始语义信息与所述目标语义信息进行比对，得到语义比对结果；将所述语义比对结果一致的所述原始文本信息与所述目标文本信息进行整合，形成增强文本信息。 9.一种电子设备，其特征在于，包括：存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的文本增强方法。 10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现如权利要求1至8中任意一项所述的文本增强方法。权　利　要　求　书 2/2 页 3 CN 115270736 A 3

专利 文本增强方法、电子设备、存储介质

专利文本增强方法、电子设备、存储介质