说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111680397.X (22)申请日 2021.12.3 0 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 陈默也 李伟 刘家辰 肖欣延  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 杜月 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/335(2019.01) G06F 16/34(2019.01) G06N 3/08(2006.01) (54)发明名称 对话摘要训练数据 的生成方法、 装置、 设备 及存储介质 (57)摘要 本公开提出了一种对话摘要训练数据的生 成方法、 装置、 电子设备及存储介质, 涉及计算机 技术领域, 具体涉及深度学习、 自然语言处理等 人工智能技术领域, 具体实现方案为: 获取多个 参考文本及每个所述参考文本对应的参考摘要; 基于每个所述参考文本中包含的语句, 生成对话 语句集; 将所述对话语句集中的各个语句进行随 机排列, 以生成对话文本; 将多个所述参考摘要 随机排列, 以生成与所述对话文本对应的目标摘 要。 本公开采用非对话形式的文本及对应的摘 要, 构建对话文本及对话摘要, 实现了获取大量 的对话摘要训练数据, 为训练得到对话摘要算法 模型提供了支撑 。 权利要求书3页 说明书13页 附图4页 CN 114490976 A 2022.05.13 CN 114490976 A 1.一种对话摘要训练数据的生成方法, 包括: 获取多个参 考文本及每 个所述参考文本对应的参 考摘要; 基于每个所述参考文本中包 含的语句, 生成对话语句集; 将所述对话语句集中的各个 语句进行随机排列, 以生成对话文本; 将多个所述 参考摘要随机排列, 以生成与所述对话文本对应的目标摘要。 2.如权利要求1所述的方法, 其中, 所述获取多个参考文本及每个所述参考文本对应的 参考摘要, 包括: 确定候选词语; 确定文本数据集中包 含所述候选词语的各个候选摘要的数量; 响应于所述候选摘要的数量大于第一阈值, 从所述各个候选摘要中选取所述参考摘 要, 其中, 所述 候选摘要对应的候选文本为所述 参考文本。 3.如权利要求2所述的方法, 其中, 所述从所述各个候选摘要中选取所述参考摘要, 包 括: 响应于所述候选摘要的数量小于或等于第 二阈值, 确定所述各个候选摘要为所述参考 摘要; 或者, 响应于所述候选摘要的数量大于所述第 二阈值, 将所述各个候选摘要中的任意数量个 候选摘要确定为 一组参考摘要。 4.如权利要求2所述的方法, 其中, 所述从所述各个候选摘要中选取所述参考摘要, 包 括: 根据所述各个候选摘要对应的所述候选文本间的字符数量差值, 从所述各个候选摘要 中选取所述参考摘要; 或者, 根据所述各个候选摘要对应的所述候选文本包含的语句数量间的差值, 从所述各个候 选摘要中选取 所述参考摘要。 5.如权利要求2所述的方法, 其中, 所述确定候选词语, 包括: 根据所述文本数据集中每 个文本对应的摘要中包 含的各个词语, 确定候选词集; 将所述候选词集中每 个词语, 依次确定为所述 候选词语。 6.如权利要求1-5任一所述的方法, 其中, 所述基于每个所述参考文本中包含的语句, 生成对话语句集, 包括: 根据每个所述参考摘要, 从每 个所述参考文本包 含的多个 语句中筛 选目标语句; 基于每个所述参考文本中包 含的目标语句, 生成所述对话语句集。 7.如权利要求6所述的方法, 其中, 所述根据每个所述参考摘要, 从每个所述参考文本 包含的多个 语句中筛 选目标语句, 包括: 将所述参考文本对应的所述 参考摘要划分为多个摘要语句; 确定所述 参考文本中每 个语句与每 个所述摘要语句间的关联度; 将关联度大于第二阈值的语句, 确定为目标语句。 8.如权利要求6所述的方法, 其中, 所述根据每个所述参考摘要, 从每个所述参考文本 包含的多个 语句中筛 选目标语句, 包括: 确定每个所述参考摘要对应的关键词集;权 利 要 求 书 1/3 页 2 CN 114490976 A 2确定每个所述语句中包 含所述关键词集中关键词的数量; 根据各个所述语句包 含所述关键词的数量, 从所述多个 语句中筛 选目标语句。 9.一种对话摘要训练数据的生成装置, 包括: 获取模块, 用于获取多个参 考文本及每 个所述参考文本对应的参 考摘要; 第一生成模块, 用于基于每 个所述参考文本中包 含的语句, 生成对话语句集; 第二生成模块, 用于将所述对话语句集中的各个 语句进行随机排列, 以生成对话文本; 第三生成模块, 用于将多个所述参考摘要随机排列, 以生成与所述对话文本对应的目 标摘要。 10.如权利要求9所述的装置, 其中, 所述获取模块包括: 第一确定单 元, 用于确定候选词语; 第二确定单 元, 用于确定文本数据集中包 含所述候选词语的各个候选摘要的数量; 第三确定单元, 用于响应于所述候选摘要的数量大于第一阈值, 从所述各个候选摘要 中选取所述参考摘要, 其中, 所述 候选摘要对应的候选文本为所述 参考文本。 11.如权利要求10所述的装置, 其中, 所述第三确定单 元用于: 响应于所述候选摘要的数量小于或等于第 二阈值, 确定所述各个候选摘要为所述参考 摘要; 或者, 响应于所述候选摘要的数量大于所述第 二阈值, 将所述各个候选摘要中的任意数量个 候选摘要确定为 一组参考摘要。 12.如权利要求10所述的装置, 其中, 所述第三确定单 元用于: 根据所述各个候选摘要对应的所述候选文本间的字符数量差值, 从所述各个候选摘要 中选取所述参考摘要; 或者, 根据所述各个候选摘要对应的所述候选文本包含的语句数量间的差值, 从所述各个候 选摘要中选取 所述参考摘要。 13.如权利要求10所述的装置, 其中, 所述第一确定单 元用于: 根据所述文本数据集中每 个文本对应的摘要中包 含的各个词语, 确定候选词集; 将所述候选词集中每 个词语, 依次确定为所述 候选词语。 14.如权利要求9-13任一所述的装置, 其中, 所述第一 生成模块包括: 筛选单元, 用于根据每个所述参考摘要, 从每个所述参考文本包含的多个语句中筛选 目标语句; 生成单元, 用于基于每 个所述参考文本中包 含的目标语句, 生成所述对话语句集。 15.如权利要求14所述的装置, 其中, 所述筛 选单元用于: 将所述参考文本对应的所述 参考摘要划分为多个摘要语句; 确定所述 参考文本中每 个语句与每 个所述摘要语句间的关联度; 将关联度大于第二阈值的语句, 确定为目标语句。 16.如权利要求14所述的装置, 其中, 所述筛 选单元用于: 确定每个所述参考摘要对应的关键词集; 确定每个所述语句中包 含所述关键词集中关键词的数量; 根据各个所述语句包 含所述关键词的数量, 从所述多个 语句中筛 选目标语句。权 利 要 求 书 2/3 页 3 CN 114490976 A 3

.PDF文档 专利 对话摘要训练数据的生成方法、装置、设备及存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 对话摘要训练数据的生成方法、装置、设备及存储介质 第 1 页 专利 对话摘要训练数据的生成方法、装置、设备及存储介质 第 2 页 专利 对话摘要训练数据的生成方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:50:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。