说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111680397.X (22)申请日 2021.12.3 0 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 陈默也 李伟 刘家辰 肖欣延 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 杜月 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/335(2019.01) G06F 16/34(2019.01) G06N 3/08(2006.01) (54)发明名称 对话摘要训练数据 的生成方法、 装置、 设备 及存储介质 (57)摘要 本公开提出了一种对话摘要训练数据的生 成方法、 装置、 电子设备及存储介质, 涉及计算机 技术领域, 具体涉及深度学习、 自然语言处理等 人工智能技术领域, 具体实现方案为: 获取多个 参考文本及每个所述参考文本对应的参考摘要; 基于每个所述参考文本中包含的语句, 生成对话 语句集; 将所述对话语句集中的各个语句进行随 机排列, 以生成对话文本; 将多个所述参考摘要 随机排列, 以生成与所述对话文本对应的目标摘 要。 本公开采用非对话形式的文本及对应的摘 要, 构建对话文本及对话摘要, 实现了获取大量 的对话摘要训练数据, 为训练得到对话摘要算法 模型提供了支撑 。 权利要求书3页 说明书13页 附图4页 CN 114490976 A 2022.05.13 CN 114490976 A 1.一种对话摘要训练数据的生成方法, 包括: 获取多个参 考文本及每 个所述参考文本对应的参 考摘要; 基于每个所述参考文本中包 含的语句, 生成对话语句集; 将所述对话语句集中的各个 语句进行随机排列, 以生成对话文本; 将多个所述 参考摘要随机排列, 以生成与所述对话文本对应的目标摘要。 2.如权利要求1所述的方法, 其中, 所述获取多个参考文本及每个所述参考文本对应的 参考摘要, 包括: 确定候选词语; 确定文本数据集中包 含所述候选词语的各个候选摘要的数量; 响应于所述候选摘要的数量大于第一阈值, 从所述各个候选摘要中选取所述参考摘 要, 其中, 所述 候选摘要对应的候选文本为所述 参考文本。 3.如权利要求2所述的方法, 其中, 所述从所述各个候选摘要中选取所述参考摘要, 包 括: 响应于所述候选摘要的数量小于或等于第 二阈值, 确定所述各个候选摘要为所述参考 摘要; 或者, 响应于所述候选摘要的数量大于所述第 二阈值, 将所述各个候选摘要中的任意数量个 候选摘要确定为 一组参考摘要。 4.如权利要求2所述的方法, 其中, 所述从所述各个候选摘要中选取所述参考摘要, 包 括: 根据所述各个候选摘要对应的所述候选文本间的字符数量差值, 从所述各个候选摘要 中选取所述参考摘要; 或者, 根据所述各个候选摘要对应的所述候选文本包含的语句数量间的差值, 从所述各个候 选摘要中选取 所述参考摘要。 5.如权利要求2所述的方法, 其中, 所述确定候选词语, 包括: 根据所述文本数据集中每 个文本对应的摘要中包 含的各个词语, 确定候选词集; 将所述候选词集中每 个词语, 依次确定为所述 候选词语。 6.如权利要求1-5任一所述的方法, 其中, 所述基于每个所述参考文本中包含的语句, 生成对话语句集, 包括: 根据每个所述参考摘要, 从每 个所述参考文本包 含的多个 语句中筛 选目标语句; 基于每个所述参考文本中包 含的目标语句, 生成所述对话语句集。 7.如权利要求6所述的方法, 其中, 所述根据每个所述参考摘要, 从每个所述参考文本 包含的多个 语句中筛 选目标语句, 包括: 将所述参考文本对应的所述 参考摘要划分为多个摘要语句; 确定所述 参考文本中每 个语句与每 个所述摘要语句间的关联度; 将关联度大于第二阈值的语句, 确定为目标语句。 8.如权利要求6所述的方法, 其中, 所述根据每个所述参考摘要, 从每个所述参考文本 包含的多个 语句中筛 选目标语句, 包括: 确定每个所述参考摘要对应的关键词集;权 利 要 求 书 1/3 页 2 CN 114490976 A 2确定每个所述语句中包 含所述关键词集中关键词的数量; 根据各个所述语句包 含所述关键词的数量, 从所述多个 语句中筛 选目标语句。 9.一种对话摘要训练数据的生成装置, 包括: 获取模块, 用于获取多个参 考文本及每 个所述参考文本对应的参 考摘要; 第一生成模块, 用于基于每 个所述参考文本中包 含的语句, 生成对话语句集; 第二生成模块, 用于将所述对话语句集中的各个 语句进行随机排列, 以生成对话文本; 第三生成模块, 用于将多个所述参考摘要随机排列, 以生成与所述对话文本对应的目 标摘要。 10.如权利要求9所述的装置, 其中, 所述获取模块包括: 第一确定单 元, 用于确定候选词语; 第二确定单 元, 用于确定文本数据集中包 含所述候选词语的各个候选摘要的数量; 第三确定单元, 用于响应于所述候选摘要的数量大于第一阈值, 从所述各个候选摘要 中选取所述参考摘要, 其中, 所述 候选摘要对应的候选文本为所述 参考文本。 11.如权利要求10所述的装置, 其中, 所述第三确定单 元用于: 响应于所述候选摘要的数量小于或等于第 二阈值, 确定所述各个候选摘要为所述参考 摘要; 或者, 响应于所述候选摘要的数量大于所述第 二阈值, 将所述各个候选摘要中的任意数量个 候选摘要确定为 一组参考摘要。 12.如权利要求10所述的装置, 其中, 所述第三确定单 元用于: 根据所述各个候选摘要对应的所述候选文本间的字符数量差值, 从所述各个候选摘要 中选取所述参考摘要; 或者, 根据所述各个候选摘要对应的所述候选文本包含的语句数量间的差值, 从所述各个候 选摘要中选取 所述参考摘要。 13.如权利要求10所述的装置, 其中, 所述第一确定单 元用于: 根据所述文本数据集中每 个文本对应的摘要中包 含的各个词语, 确定候选词集; 将所述候选词集中每 个词语, 依次确定为所述 候选词语。 14.如权利要求9-13任一所述的装置, 其中, 所述第一 生成模块包括: 筛选单元, 用于根据每个所述参考摘要, 从每个所述参考文本包含的多个语句中筛选 目标语句; 生成单元, 用于基于每 个所述参考文本中包 含的目标语句, 生成所述对话语句集。 15.如权利要求14所述的装置, 其中, 所述筛 选单元用于: 将所述参考文本对应的所述 参考摘要划分为多个摘要语句; 确定所述 参考文本中每 个语句与每 个所述摘要语句间的关联度; 将关联度大于第二阈值的语句, 确定为目标语句。 16.如权利要求14所述的装置, 其中, 所述筛 选单元用于: 确定每个所述参考摘要对应的关键词集; 确定每个所述语句中包 含所述关键词集中关键词的数量; 根据各个所述语句包 含所述关键词的数量, 从所述多个 语句中筛 选目标语句。权 利 要 求 书 2/3 页 3 CN 114490976 A 3
专利 对话摘要训练数据的生成方法、装置、设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 21:50:50
上传分享
举报
下载
原文档
(779.0 KB)
分享
友情链接
DB1408-T005-2020 果园植保器械农药有效沉积率评价技术规程 运城市.pdf
GB-T 26358-2022 旅游度假区等级划分.pdf
DB15-T 2186—2021 林草数据备份管理规范 内蒙古自治区.pdf
GM-T 0043-2015 数字证书互操作检测规范.pdf
GB-T 28827.1-2012 信息技术服务 运行维护 第1部分:通用要求.pdf
NY-T 1281-2007 花卉植物真菌病害检测规程.pdf
GB-T 40809-2021 铸造铝合金 半固态流变压铸成形工艺规范.pdf
GB-T 18107-2017 红木.pdf
DB37-T 4649.3—2023 智能制造 第3部分:数字化车间建设指南 山东省.pdf
GA-T 1574—2019 信息安全技术 数据库安全加固产品安全技术要求.pdf
GB-T 22576.4-2021 医学实验室 质量和能力的要求 第4部分:临床化学检验领域的要求.pdf
T-QGCML 303—2022 能源企业数字化转型实施指南.pdf
T-QGCML 1684—2023 LED大型广告牌制作工艺.pdf
GB-T 37378-2019 交通运输 信息安全规范.pdf
GB-T 31486-2015 电动汽车用动力蓄电池电性能要求及试验方法.pdf
GB-T 34867.1-2017 电动机系统节能量测量和验证方法 第1部分:电动机现场能效测试方法.pdf
DB22-T 2445.4-2017 节能技术改造及合同能源管理项目节能量审核与计算方法 第4部分:空气压缩机系统 吉林省.pdf
SL-'T 292-2020 水利系统通信业务技术导则.pdf
GB-T 19425-2003 防伪技术产品通用技术条件.pdf
GB-T 41986-2022 全钒液流电池 设计导则.pdf
1
/
3
21
评价文档
赞助2.5元 点击下载(779.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。