全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221078076 6.0 (22)申请日 2022.07.04 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 妥明翔 丁宇辰 刘璟  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 问答匹配模型的训练方法、 装置及电子设备 (57)摘要 本公开提供了问答匹配模型的训练方法、 装 置及电子设备, 涉及人工智能技术领域, 尤其涉 及自然语言处理、 智能搜索、 深度学习技术领域。 具体实现方案为: 获取训练数据, 其中, 训练数据 包括多个对抗类别下的对抗样本以及对抗样本 的标签; 标签表征对抗样本中对抗样本答案是否 为对抗样 本中样本问题的正确答案; 获取初始的 问答匹配模 型; 采用多个对抗类别下的对抗样本 以及对抗样本的标签, 对问答匹配模型进行训 练, 从而能够采用多个对抗类别下的对抗样本对 问答匹配模 型进行训练, 使 得问答匹配模型能够 很好的针对相同样本问题, 区分样 本答案以及对 抗样本答案, 从而提高训练得到的问答匹配模型 的准确度, 提高问答匹配模型的鲁棒 性。 权利要求书3页 说明书12页 附图5页 CN 115129816 A 2022.09.30 CN 115129816 A 1.一种问答匹配模型的训练方法, 包括: 获取训练数据, 其中, 所述训练数据包括多个对抗类别下的对抗样本以及所述对抗样 本的标签; 所述标签表征所述对抗样本中对抗样本答案是否为所述对抗样本中样本问题的 正确答案; 获取初始的问答匹配模型; 采用多个对抗类别下的所述对抗样本以及所述对抗样本的标签, 对所述问答匹配模型 进行训练。 2.根据权利要求1所述的方法, 其中, 所述训练数据还包括: 非对抗类别下的原始样本 以及所述原 始样本的标签; 所述采用多个对抗类别下的所述对抗样本以及所述对抗样本的标签, 对所述问答匹配 模型进行训练, 包括: 针对每个对抗类别下的对抗样本, 获取 所述对抗样本中的样本问题; 根据所述样本问题, 获取包括所述样本问题的目标原 始样本; 根据所述对抗样本以及所述目标原 始样本, 组成样本对; 采用多个所述样本对, 对所述问答匹配模型进行训练。 3.根据权利要求1所述的方法, 其中, 所述获取训练数据, 包括: 获取非对抗类别下的原 始样本以及所述原 始样本的标签; 针对每个对抗类别, 根据所述原始样本中的样本问题, 获取所述样本问题对应的多个 候选答案; 基于所述对抗类别的类别特征, 从多个所述候选答案 中抽取所述样本问题的对抗样本 答案。 4.根据权利要求1所述的方法, 其中, 所述获取训练数据, 包括: 获取非对抗类别下的原 始样本以及所述原 始样本的标签; 针对每个对抗类别, 获取 所述对抗类别下的对抗问答匹配模型; 根据所述原 始样本中的样本问题, 获取 所述样本问题对应的多个候选答案; 获取所述对抗问答匹配模型对多个所述候选答案的第 一排序结果, 以及所述初始的问 答匹配模型对多个所述 候选答案的第二 排序结果; 根据所述第 一排序结果以及所述第 二排序结果, 获取多个所述候选答案 中的逆序候选 答案组, 其中, 所述逆序候选答案组中两个候选答案在所述第一排序结果和所述第二排序 结果中的先后顺序不 一致; 将所述第一排序结果中两个所述候选答案中排序在后的候选答案作为所述样本问题 的对抗样本答案 。 5.根据权利要求4所述的方法, 其中, 所述针对每个对抗类别, 获取所述对抗类别下的 对抗问答匹配模型, 包括: 针对每个对抗类别, 获取 所述对抗类别下的测试对抗样本; 确定多个候选问答匹配模型, 以及每个所述候选问答匹配模型在所述测试对抗样本上 的测试准确度; 将对应的测试准确度满足第 一测试要求的候选问答匹配模型, 作为所述对抗类别下的 对抗问答匹配模型。权 利 要 求 书 1/3 页 2 CN 115129816 A 26.根据权利要求1所述的方法, 其中, 所述方法还 包括: 获取多个对抗类别下的测试对抗样本; 确定训练好的问答匹配模型在所述测试对抗样本上的测试准确度; 在所述测试准确度未满足第 二测试要求 时, 重新获取训练数据对所述训练好的问答匹 配模型进行训练, 直至训练好的问答匹配模型的所述测试准确度满足所述第二测试要求。 7.一种问答匹配方法, 包括: 获取待处 理的问题, 以及所述问题对应的多个候选答案; 将所述问题以及多个所述候选答案输入问答匹配模型, 获取所述问题与多个所述候选 答案之间的匹配度; 其中, 所述问答匹配模型结合多个对抗类别下 的对抗样本以及所述对 抗样本的标签训练得到, 所述标签表征所述对抗样本中对抗样本答案是否为所述对抗样本 中样本问题的正确答案; 根据所述匹配度, 从多个所述 候选答案中选择 所述问题对应的答案 。 8.一种问答匹配模型的训练装置, 包括: 第一获取模块, 用于获取训练数据, 其中, 所述训练数据包括多个对抗类别下的对抗样 本以及所述对抗样本的标签; 所述标签表征所述对抗样本中对抗样本答案是否为所述对抗 样本中样本问题的正确答案; 第二获取模块, 用于获取初始的问答匹配模型; 训练模块, 用于采用多个对抗类别下的所述对抗样本以及所述对抗样本的标签, 对所 述问答匹配模型进行训练。 9.根据权利要求8所述的装置, 其中, 所述训练数据还包括: 非对抗类别下的原始样本 以及所述原 始样本的标签; 所述训练模块具体用于, 针对每个对抗类别下的对抗样本, 获取 所述对抗样本中的样本问题; 根据所述样本问题, 获取包括所述样本问题的目标原 始样本; 根据所述对抗样本以及所述目标原 始样本, 组成样本对; 采用多个所述样本对, 对所述问答匹配模型进行训练。 10.根据权利要求8所述的装置, 其中, 所述第一获取模块包括: 第一获取单元、 第二获 取单元和抽取 单元; 所述第一获取 单元, 用于获取非对抗类别下的原 始样本以及所述原 始样本的标签; 所述第二获取单元, 用于针对每个对抗类别, 根据 所述原始样本 中的样本问题, 获取所 述样本问题对应的多个候选答案; 所述抽取单元, 用于基于所述对抗类别的类别特征, 从多个所述候选答案中抽取所述 样本问题的对抗样本答案 。 11.根据权利要求8所述的装置, 其中, 所述第一获取模块包括: 第三获取单元、 第 四获 取单元、 第五获取单元、 第六获取 单元、 第七获取 单元和确定单元; 所述第三获取 单元, 用于获取非对抗类别下的原 始样本以及所述原 始样本的标签; 所述第四获取单元, 用于针对每个对抗类别, 获取所述对抗类别下的对抗问答匹配模 型; 所述第五获取单元, 用于根据所述原始样本中的样本问题, 获取所述样本问题对应的 多个候选答案;权 利 要 求 书 2/3 页 3 CN 115129816 A 3

.PDF文档 专利 问答匹配模型的训练方法、装置及电子设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 问答匹配模型的训练方法、装置及电子设备 第 1 页 专利 问答匹配模型的训练方法、装置及电子设备 第 2 页 专利 问答匹配模型的训练方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。