全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111676599.7 (22)申请日 2021.12.31 (71)申请人 北京五八信息技 术有限公司 地址 100083 北京市海淀区学清路甲18号 中关村东升科技园学院园三层3 01室 (72)发明人 高文龙 曾钦榜 周超  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 吕俊秀 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/332(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文本处理方法、 装置、 电子设备和存储 介质 (57)摘要 本发明实施例提供了一种文本处理方法、 装 置、 电子设备和存储介质, 所述方法包括: 获取待 处理文本和查询语句; 将查询语句与多个预设类 别对应的预设标准问题进行匹配, 得到查询语句 对应的预设类别; 采用预先训练的文本处理模 型, 从待处理文本分类得到待处理文本包含的预 设类别对应的答案位置信息; 以及根据查询语句 对应的预设类别和答案位置信息对应的预设类 别, 确定查询语句匹配的答案位置信息; 根据查 询语句匹配的答案位置信息, 从待处理文本中确 定预测答案文本。 本申请实施例可以得到按照多 个预设类别进行分类的答案位置信息, 以对抽取 的信息进行有效分类, 并从中确定与查询语句的 预设类别匹配的信息, 精准符合用户需求。 权利要求书2页 说明书13页 附图4页 CN 114491023 A 2022.05.13 CN 114491023 A 1.一种文本处 理方法, 其特 征在于, 所述方法包括: 获取待处 理文本和查询语句; 将所述查询语句与多个预设类别对应的预设标准问题进行匹配, 得到所述查询语句对 应的预设类别; 采用预先训练 的文本处理模型, 从所述待处理文本分类得到所述待处理文本包含的预 设类别对应的答案位置信息; 以及根据所述查询语句对应的预设类别和所述答案位置信息 对应的预设类别, 确定所述 查询语句匹配的答案位置信息; 根据所述 查询语句匹配的答案位置信息, 从所述待处 理文本中确定预测答案文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述文本处理模型包括文本抽取模块和全 连接层; 所述采用预先训练的文本处理模型, 从所述待处理文本分类得到所述待处理文本 包含的预设类别对应的答案位置信息, 包括: 将所述待处理文本输入文本处理模型的文本抽取模块, 由所述文本抽取模块对所述待 处理文本进行编码, 得到句子特 征和字特 征; 将所述字特征和句子特征输入所述文本处理模型的全连接层, 由所述全连接层根据 所 述句子特征, 按照多个预设类别对所述待处理文本进行分类, 确定所述待处理文本包含的 预设类别; 以及由所述全连接层根据所述字特征, 从所述待处理文本中确定所述待处理文 本包含的预设类别对应的多个答案位置信息 。 3.根据权利要求2所述的方法, 其特征在于, 所述文本处理模型包括第一分类层; 所述 根据所述查询语句对应的预设类别和所述答案位置信息对应的预设类别, 确定所述查询语 句匹配的答案位置信息, 包括: 将所述句子特征输入所述文本处理模型的第 一分类层, 由所述第 一分类层根据 所述查 询语句对应的预设类别, 从所述全连接层确定的多个答案位置信息中, 查找与所述查询语 句对应的预设类别匹配的答案位置信息, 以确定所述 查询语句匹配的答案位置信息 。 4.根据权利要求1所述的方法, 其特 征在于, 通过如下 方式训练所述文本处 理模型: 获取训练数据, 所述训练数据包括训练文本和所述训练文本对应的文本标注; 所述文 本标注包括预设类别对应的标准问题和与所述标准问题匹配的真实答案信息; 采用文本处理模型, 从所述训练文本分类出各个所述预设类别对应的答案位置信息; 根据所述标准问题对应的预设类别和所述答案位置信息对应的预设类别, 确定所述标准问 题匹配的答案位置信息; 根据所述标准问题匹配的答案位置信息, 确定预测答案文本; 以及 确定所述训练文本中符合所述真实答案信息的真实答案片段; 根据所述标准问题匹配的答案位置信息、 所述预测答案文本、 所述真实答案片段和所 述文本标注, 确定损失函数值; 根据所述损失函数值, 调整所述文本处 理模型参数以对所述文本处 理模型进行训练。 5.根据权利要求4所述的方法, 其特征在于, 所述真实答案信息包括真实答案文本; 所 述文本处理模块包括文本抽取模块和 第二分类层; 所述确定所述训练文本中符合所述真实 答案信息的真实答案片段, 包括: 将所述训练文本输入所述文本抽取模块, 由所述文本抽取模块对所述训练文本进行编 码, 得到句子特 征; 将所述句子特征输入所述第 二分类层, 由所述第 二分类层判断所述训练文本中的每个权 利 要 求 书 1/2 页 2 CN 114491023 A 2字是否出现在真实答案文本中, 得到所述训练文本中每 个字的判断结果; 根据所述判断结果, 确定由出现在所述真实答案文本中的字组成的真实答案片段。 6.根据权利要求5所述的方法, 其特征在于, 所述真实答案信 息还包括真实答案位置信 息和所述真实答案位置信息对应的预设类别; 所述根据所述标准问题匹配的答案位置信 息、 所述预测答案文本、 所述真实答案片段和所述文本标注, 确定损失函数值, 包括: 将所述标准问题匹配的答案位置信息对应的预设类别和所述真实答案位置信息对应 的预设类别进行对比, 确定答案分类损失; 将所述标准问题匹配的答案位置信 息和所述真实答案位置信 息进行对比, 确定位置损 失; 对所述预测答案 中的每个字, 判断所述预测答案文本 中的字是否出现在所述真实答案 片段中, 确定 字分类损失; 将所述预测答案文本和所述真实答案文本进行对比, 确定 评价损失; 根据所述位置损失、 所述答案分类损失、 所述字分类损失和所述评价损失, 确定损失函 数值。 7.一种文本处 理装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待处 理文本和查询语句; 查询语句匹配模块, 用于将所述查询语句与多个预设类别对应的预设标准问题进行匹 配, 得到所述 查询语句对应的预设类别; 模型处理模块, 用于采用预先训练的文本处理模型, 从所述待处理文本分类得到所述 待处理文本包含的预设类别对应的答案位置信息; 以及根据所述查询语句对应的预设类别 和所述答案位置信息对应的预设类别, 确定所述 查询语句匹配的答案位置信息; 答案确定模块, 用于根据所述查询语句匹配的答案位置信息, 从所述待处理文本中确 定预测答案文本 。 8.根据权利要求7所述的装置, 其特征在于, 所述文本处理模型包括文本抽取模块和全 连接层; 所述模型处 理模块, 包括: 编码子模块, 用于将所述待处理文本输入文本处理模型的文本抽取模块, 由所述文本 抽取模块对所述待处 理文本进行编码, 得到句子特 征和字特 征; 答案位置信 息确定子模块, 用于将所述字特征和句子特征输入所述文本处理模型的全 连接层, 由所述全连接层根据所述句 子特征, 按照多个预设类别对所述待处理文本进行分 类, 确定所述待处理文本包含的预设类别; 以及由所述全连接层根据所述字特征, 从所述待 处理文本中确定所述待处 理文本包 含的预设类别对应的多个答案位置信息 。 9.一种电子设备, 其特征在于, 包括: 处理器、 存储器及存储在所述存储器上并能够在 所述处理器上运行的计算机程序, 所述计算机程序被所述处理器执行时实现如权利要求 1‑ 6中任一项所述的文本处 理方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储计算机程 序, 所述计算机程序被处理器执行时实现如权利要求 1至6中任一项 所述的文本处理方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114491023 A 3

.PDF文档 专利 一种文本处理方法、装置、电子设备和存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本处理方法、装置、电子设备和存储介质 第 1 页 专利 一种文本处理方法、装置、电子设备和存储介质 第 2 页 专利 一种文本处理方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:43:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。