全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211186475.5 (22)申请日 2022.09.26 (71)申请人 华为技术有限公司 地址 518129 广东省深圳市龙岗区坂田华 为总部办公楼 (72)发明人 戴全宇 王浩 王奕超 唐睿明  董振华  (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 专利代理师 陈霁 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称 一种业务模 型的训练方法、 训练装置和计算 设备 (57)摘要 一种业务模 型的训练方法、 训练装置和计算 设备。 该业务模型包括表征网络和预测 网络, 该 训练方法包括: 使用表征网络处理各个用户的特 征数据得到各个用户的表征数据, 以及利用预测 网络处理各个用户的表征数据得到各个用户的 预测事实结果, 各个用户包括接受第一策略的第 一用户、 以及接受第二策略的第二用户; 根据各 个用户的事实结果和预测事实结果确定第一损 失; 基于最优传输求解算法获得的优化的传输矩 阵确定第一用户与第二用户的样 本分布距离, 其 中, 优化的传输矩阵根据第一用户和第二用户的 目标质量分布向量确定; 根据第一损失和根据样 本分布距离确定的第二损失更新模型的模型参 数。 该训练方法可 以提高模型的泛化能力, 从而 提高模型的鲁棒 性。 权利要求书3页 说明书14页 附图4页 CN 115423120 A 2022.12.02 CN 115423120 A 1.一种业务模型的训练方法, 其特征在于, 所述业务模型包括表征网络和预测网络; 所 述方法包括: 获取用户集中各个用户的特征数据和事实结果, 所述用户集中包括接受第 一策略的第 一用户、 以及接受第二策略的第二用户; 使用所述表征网络处理所述各个用户的特征数据得到所述各个用户的表征数据, 以及 利用所述预测网络处 理所述各个用户的表征 数据得到所述各个用户的预测事实结果; 根据所述各个用户的事实结果和预测事实结果确定第一损失; 基于最优传输求解算法获得的优化的传输矩阵确定所述第一用户与所述第二用户的 样本分布距离, 其中, 所述优化的传输矩阵根据所述第一用户和第二用户的目标质量分布 向量确定; 根据所述第 一损失和第 二损失更新所述业务模型的模型参数, 所述第 二损失根据 所述 样本分布 距离确定 。 2.根据权利要求1所述的方法, 其特征在于, 所述基于最优传输求解算法获得的优化的 传输矩阵确定所述第一用户与所述第二用户的样本分布 距离包括: 根据所述第一用户的表征 数据和所述第二用户的表征 数据确定距离矩阵; 确定所述优化的传输矩阵, 其为使得目标项最小化的传输矩阵, 所述目标项正相关于 第一距离项和第二距离项, 所述第一距离项为所述距离矩阵与传输矩阵的点乘结果, 第二 距离项包括: 基于所述传输矩阵确定的传输质量分布与所述第一用户和 第二用户的目标质 量分布向量之间的分布差异; 根据所述距离矩阵和所述优化的传输矩阵, 确定所述样本分布 距离。 3.根据权利要求2所述的方法, 其特征在于, 所述方法还包括: 预测所述第一用户接受 第二策略时的反事实结果、 以及所述第二用户接受所述第一策略时的反事实结果; 其中, 所述根据 所述第一用户的表征数据和所述第 二用户的表征数据确定距离矩阵包 括: 根据所述第一用户的表征数据与所述第二用户的表征数据的差值、 所述第一用户的事 实结果与所述第二用户的反事实结果的差值、 以及所述第二用户的事实结果与所述第一用 户的反事实结果的差值, 确定所述距离矩阵。 4.根据权利要求2或3所述的方法, 其特 征在于, 所述分布差异为以下两项之和: 根据所述传输矩阵确定的对应于所述第一用户的第一传输质量分布向量与其目标质 量分布向量之间的第一KL散度, 以及, 根据所述传输矩阵确定的对应于所述第二用户的第二传输质量分布向量与其目标质 量分布向量之间的第二KL散度。 5.根据权利要求4所述的方法, 其特征在于, 所述确定优化的传输矩阵包括多轮迭代运 算, 任意轮迭代运 算包括: 根据当前轮次中当前传输矩阵确定当前的第 一传输质量分布向量, 根据当前的第 一传 输质量分布向量和所述第一用户的目标质量分布向量之间的当前分布差, 更新第一向量; 根据所述当前传输矩阵确定当前的第 二传输质量分布向量, 根据当前的第 二传输质量 分布向量和所述第二用户的目标质量分布向量之间的当前分布差, 更新第二向量; 其中, 所述第一向量和所述第二向量用于在多轮迭代后, 运算得出所述优化的传输矩 阵。权 利 要 求 书 1/3 页 2 CN 115423120 A 26.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述第一策略为接受目标干预操 作, 第二策略为 不接受所述目标干预操作。 7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 所述根据 所述第一损失和第二损 失更新所述 业务模型的模型参数包括: 根据所述第一损失值、 所述第二损失值和所述第二损失值的权 重确定总损失值; 根据所述总损失值更新所述 业务模型的模型参数。 8.一种业务模型的训练装置, 其特征在于, 所述业务模型包括表征网络和预测网络; 所 述训练装置包括: 获取模块, 用于获取用户集中各个用户的特征数据和事实结果, 所述用户集中包括接 受第一策略的第一用户、 以及接受第二策略的第二用户; 预测模块, 用于使用所述表征网络处理所述各个用户的特征数据得到所述各个用户的 表征数据, 以及利用所述预测网络处理所述各个用户的表征数据得到所述各个用户的预测 事实结果; 更新模块, 用于根据所述各个用户的事实结果和预测事实结果确定第一损失; 更新模块, 用于基于最优传输求解算法获得的优化的传输矩阵确定所述第 一用户与 所 述第二用户的样本分布距离, 其中, 所述优化的传输矩阵根据所述第一用户和第二用户的 目标质量分布向量确定; 更新模块, 用于根据所述第一损 失和第二损 失更新所述业务模型的模型参数, 所述第 二损失根据所述样本分布 距离确定 。 9.根据权利要求8所述的训练装置, 其特 征在于, 所述更新模块具体用于: 根据所述第一用户的表征 数据和所述第二用户的表征 数据确定距离矩阵; 确定所述优化的传输矩阵, 其为使得目标项最小化的传输矩阵, 所述目标项正相关于 第一距离项和第二距离项, 所述第一距离项为所述距离矩阵与传输矩阵的点乘结果, 第二 距离项包括: 基于所述传输矩阵确定的传输质量分布与所述第一用户和 第二用户的目标质 量分布向量之间的分布差异; 根据所述距离矩阵和所述优化的传输矩阵, 确定所述样本分布 距离。 10.根据权利要求9所述的训练装置, 其特 征在于, 所述预测模块还用于: 预测所述第 一用户接受第 二策略时的反事实结果、 以及所述第 二用户接受所述第 一策 略时的反事实结果; 其中, 所述更新模块具体用于: 根据所述第一用户的表征数据与所述第二用户的表征 数据的差值、 所述第一用户的事实结果与所述第二用户的反事实结果的差值、 以及所述第 二用户的事实结果与所述第一用户的反事实结果的差值, 确定所述距离矩阵。 11.根据权利要求9或10所述的训练装置, 其特 征在于, 所述分布差异为以下两项之和: 根据所述传输矩阵确定的对应于所述第一用户的第一传输质量分布向量与其目标质 量分布向量之间的第一KL散度, 以及, 根据所述传输矩阵确定的对应于所述第二用户的第二传输质量分布向量与其目标质 量分布向量之间的第二KL散度。 12.根据权利要求11所述的训练装置, 其特征在于, 所述更新模块用于通过多轮迭代运 算确定优化的传输矩阵, 具体用于:权 利 要 求 书 2/3 页 3 CN 115423120 A 3

.PDF文档 专利 一种业务模型的训练方法、训练装置和计算设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种业务模型的训练方法、训练装置和计算设备 第 1 页 专利 一种业务模型的训练方法、训练装置和计算设备 第 2 页 专利 一种业务模型的训练方法、训练装置和计算设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:09:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。