全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210961108.1 (22)申请日 2022.08.11 (71)申请人 北京健康之家科技有限公司 地址 100102 北京市朝阳区利泽中二路2号 C座2层201 (72)发明人 徐华韫 黄明星 王福钋 曹富康  张航飞 王月宝 沈鹏  (74)专利代理 机构 北京中强智尚知识产权代理 有限公司 1 1448 专利代理师 朱春元 (51)Int.Cl. G06F 40/166(2020.01) G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文本生 成方法、 文本生成装置和可读存 储介质 (57)摘要 本申请提供了一种文本生 成方法、 文本生成 装置和可读存储介质, 涉及信息处理技术领域。 该方法包括: 获取待处理文本, 并将待处理文本 划分为多个语句, 以及在多个语句中, 确定不包 含关键信息的目标语句, 关键信息为表示待处理 文本的关键语义的信息; 将目标语句输入至相似 文本生成模型, 得到目标语句的至少一个第一相 似句; 基于语句相似度, 在预设文本知识库中获 取目标语句的至少一个第二相似句; 将目标语句 中的分词进行近义词替换, 生 成目标语句的至少 一个第三相似句; 在至少一个第一相似句、 至少 一个第二相似句以及至少一个第三相似句中确 定目标相似句, 并利用目标相似句替换目标语 句, 生成待处 理文本的目标文本 。 权利要求书2页 说明书8页 附图3页 CN 115408997 A 2022.11.29 CN 115408997 A 1.一种文本生成方法, 其特 征在于, 包括: 获取待处理文本, 并将所述待处理文本划分为多个语句, 以及在所述多个语句中, 确定 不包含关键信息的目标语句, 所述关键信息为表示所述待处 理文本的关键语义的信息; 将所述目标语句输入至相似文本生成模型, 得到所述目标语句 的至少一个第一相似 句; 基于语句 相似度, 在预设文本知识库中获取 所述目标语句的至少一个第二相似句; 将所述目标语句中的分词进行近义词替换, 生成所述目标语句 的至少一个第三相似 句; 在所述至少一个第 一相似句、 所述至少一个第 二相似句以及所述至少一个第 三相似句 中确定目标相似句, 并利用所述 目标相似句替换所述 目标语句, 生成所述待处理文本的目 标文本。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述待处理文本划分为多个语句, 包括: 按照标点符号, 对所述待处 理文本进行划分, 得到所述多个 语句。 3.根据权利要求1所述的方法, 其特征在于, 所述将所述目标语句输入至相似文本生成 模型, 得到所述目标语句的至少一个第一相似句, 包括: 将所述目标语句输入至相似文本生成模型, 得到多个第一 候选语句; 过滤掉所述多个第 一候选语句中不符合规范的第 一候选语句, 以及在保留下的第 一候 选语句中, 确定与所述 目标语句的相似度大于或等于第一阈值的第一候选语句, 并作为所 述目标语句的第一相似句。 4.根据权利要求1所述的方法, 其特征在于, 在所述基于语句相似度, 在预设文本知识 库中获取 所述目标语句的至少一个第二相似句之前, 还 包括: 使用爬虫工具, 爬取多个文本文章数据, 并将所述多个文本文章数据按照标点符号进 行划分, 得到多个短句; 根据所述关键信息, 在所述多个短句中筛选出第二候选语句, 以及将所述第二候选语 句存储至所述预设文本知识库中。 5.根据权利要求1所述的方法, 其特征在于, 所述基于语句相似度, 在预设文本知识库 中获取所述目标语句的至少一个第二相似句, 包括: 将所述预设文本知识库存储的多个第二候选语句分别与所述目标语句进行相似度计 算; 将相似度大于或等于第二阈值的第二 候选语句, 作为所述目标语句的第二相似句。 6.根据权利要求1所述的方法, 其特征在于, 所述将所述目标语句中的分词 进行近义词 替换, 生成所述目标语句的至少一个第三相似句, 包括: 将所述目标语句划分为多个分词, 并获取每 个所述分词的词向量; 根据所述词向量, 获取每个所述分词的近义词, 并依次选取每个所述分词的近义词, 对 所述目标语句进行重组, 生成多个第三 候选语句; 计算每个所述第 三候选语句的通顺度, 并将通顺度 大于或等于第 三阈值的第 三候选语 句, 作为所述目标语句的第三相似句。 7.根据权利要求1至6中任一项所述的方法, 其特征在于, 所述在所述至少一个第一相权 利 要 求 书 1/2 页 2 CN 115408997 A 2似句、 所述至少一个第二相似句以及所述至少一个第三相似句中确定目标相似句, 包括: 在所述至少一个第 一相似句、 所述至少一个第 二相似句以及所述至少一个第 三相似句 中随机抽取一个相似句, 作为所述目标相似句。 8.根据权利要求1至6中任一项所述的方法, 其特征在于, 所述在所述至少一个第一相 似句、 所述至少一个第二相似句以及所述至少一个第三相似句中确定目标相似句, 包括: 将所述至少一个第 一相似句、 所述至少一个第 二相似句以及所述至少一个第 三相似句 中, 与所述目标语句的相似度最高的相似句作为所述目标相似句。 9.一种文本生成装置, 其特 征在于, 包括: 获取模块, 用于获取待处理文本, 并将所述待处理文本划分为多个语句, 以及在所述多 个语句中, 确定不包含关键信息的目标语句, 所述关键信息为表示所述待处理文本的关键 语义的信息; 第一处理模块, 用于将所述目标语句输入至相似文本生成模型, 得到所述目标语句的 至少一个第一相似句; 第二处理模块, 用于基于语句相似度, 在预设文本知识库中获取所述目标语句的至少 一个第二相似句; 第三处理模块, 用于将所述目标语句中的分词进行近义词替换, 生成所述目标语句的 至少一个第三相似句; 生成模块, 用于在所述至少一个第一相似句、 所述至少一个第二相似句以及所述至少 一个第三相似句中确定目标相似句, 并利用所述 目标相似句替换所述 目标语句, 生成所述 待处理文本的目标文本 。 10.一种可读存储介质, 其上存储有程序或指令, 其特征在于, 所述程序或指令被处理 器执行时实现如权利要求1至8中任一项所述的文本生成方法的步骤。权 利 要 求 书 2/2 页 3 CN 115408997 A 3

PDF文档 专利 一种文本生成方法、文本生成装置和可读存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本生成方法、文本生成装置和可读存储介质 第 1 页 专利 一种文本生成方法、文本生成装置和可读存储介质 第 2 页 专利 一种文本生成方法、文本生成装置和可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。