专利一种业务模型的训练方法、训练装置和计算设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211186475.5 (22)申请日 2022.09.26 (71)申请人华为技术有限公司地址 518129 广东省深圳市龙岗区坂田华为总部办公楼 (72)发明人戴全宇　王浩　王奕超　唐睿明　董振华　 (74)专利代理机构北京亿腾知识产权代理事务所(普通合伙) 11309 专利代理师陈霁 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称一种业务模型的训练方法、训练装置和计算设备 (57)摘要一种业务模型的训练方法、训练装置和计算设备。该业务模型包括表征网络和预测网络，该训练方法包括：使用表征网络处理各个用户的特征数据得到各个用户的表征数据，以及利用预测网络处理各个用户的表征数据得到各个用户的预测事实结果，各个用户包括接受第一策略的第一用户、以及接受第二策略的第二用户；根据各个用户的事实结果和预测事实结果确定第一损失；基于最优传输求解算法获得的优化的传输矩阵确定第一用户与第二用户的样本分布距离，其中，优化的传输矩阵根据第一用户和第二用户的目标质量分布向量确定；根据第一损失和根据样本分布距离确定的第二损失更新模型的模型参数。该训练方法可以提高模型的泛化能力，从而提高模型的鲁棒性。权利要求书3页说明书14页附图4页 CN 115423120 A 2022.12.02 CN 115423120 A 1.一种业务模型的训练方法，其特征在于，所述业务模型包括表征网络和预测网络；所述方法包括：获取用户集中各个用户的特征数据和事实结果，所述用户集中包括接受第一策略的第一用户、以及接受第二策略的第二用户；使用所述表征网络处理所述各个用户的特征数据得到所述各个用户的表征数据，以及利用所述预测网络处理所述各个用户的表征数据得到所述各个用户的预测事实结果；根据所述各个用户的事实结果和预测事实结果确定第一损失；基于最优传输求解算法获得的优化的传输矩阵确定所述第一用户与所述第二用户的样本分布距离，其中，所述优化的传输矩阵根据所述第一用户和第二用户的目标质量分布向量确定；根据所述第一损失和第二损失更新所述业务模型的模型参数，所述第二损失根据所述样本分布距离确定。 2.根据权利要求1所述的方法，其特征在于，所述基于最优传输求解算法获得的优化的传输矩阵确定所述第一用户与所述第二用户的样本分布距离包括：根据所述第一用户的表征数据和所述第二用户的表征数据确定距离矩阵；确定所述优化的传输矩阵，其为使得目标项最小化的传输矩阵，所述目标项正相关于第一距离项和第二距离项，所述第一距离项为所述距离矩阵与传输矩阵的点乘结果，第二距离项包括：基于所述传输矩阵确定的传输质量分布与所述第一用户和第二用户的目标质量分布向量之间的分布差异；根据所述距离矩阵和所述优化的传输矩阵，确定所述样本分布距离。 3.根据权利要求2所述的方法，其特征在于，所述方法还包括：预测所述第一用户接受第二策略时的反事实结果、以及所述第二用户接受所述第一策略时的反事实结果；其中，所述根据所述第一用户的表征数据和所述第二用户的表征数据确定距离矩阵包括：根据所述第一用户的表征数据与所述第二用户的表征数据的差值、所述第一用户的事实结果与所述第二用户的反事实结果的差值、以及所述第二用户的事实结果与所述第一用户的反事实结果的差值，确定所述距离矩阵。 4.根据权利要求2或3所述的方法，其特征在于，所述分布差异为以下两项之和：根据所述传输矩阵确定的对应于所述第一用户的第一传输质量分布向量与其目标质量分布向量之间的第一KL散度，以及，根据所述传输矩阵确定的对应于所述第二用户的第二传输质量分布向量与其目标质量分布向量之间的第二KL散度。 5.根据权利要求4所述的方法，其特征在于，所述确定优化的传输矩阵包括多轮迭代运算，任意轮迭代运算包括：根据当前轮次中当前传输矩阵确定当前的第一传输质量分布向量，根据当前的第一传输质量分布向量和所述第一用户的目标质量分布向量之间的当前分布差，更新第一向量；根据所述当前传输矩阵确定当前的第二传输质量分布向量，根据当前的第二传输质量分布向量和所述第二用户的目标质量分布向量之间的当前分布差，更新第二向量；其中，所述第一向量和所述第二向量用于在多轮迭代后，运算得出所述优化的传输矩阵。权　利　要　求　书 1/3 页 2 CN 115423120 A 26.根据权利要求1 ‑5任一项所述的方法，其特征在于，所述第一策略为接受目标干预操作，第二策略为不接受所述目标干预操作。 7.根据权利要求1 ‑6任一项所述的方法，其特征在于，所述根据所述第一损失和第二损失更新所述业务模型的模型参数包括：根据所述第一损失值、所述第二损失值和所述第二损失值的权重确定总损失值；根据所述总损失值更新所述业务模型的模型参数。 8.一种业务模型的训练装置，其特征在于，所述业务模型包括表征网络和预测网络；所述训练装置包括：获取模块，用于获取用户集中各个用户的特征数据和事实结果，所述用户集中包括接受第一策略的第一用户、以及接受第二策略的第二用户；预测模块，用于使用所述表征网络处理所述各个用户的特征数据得到所述各个用户的表征数据，以及利用所述预测网络处理所述各个用户的表征数据得到所述各个用户的预测事实结果；更新模块，用于根据所述各个用户的事实结果和预测事实结果确定第一损失；更新模块，用于基于最优传输求解算法获得的优化的传输矩阵确定所述第一用户与所述第二用户的样本分布距离，其中，所述优化的传输矩阵根据所述第一用户和第二用户的目标质量分布向量确定；更新模块，用于根据所述第一损失和第二损失更新所述业务模型的模型参数，所述第二损失根据所述样本分布距离确定。 9.根据权利要求8所述的训练装置，其特征在于，所述更新模块具体用于：根据所述第一用户的表征数据和所述第二用户的表征数据确定距离矩阵；确定所述优化的传输矩阵，其为使得目标项最小化的传输矩阵，所述目标项正相关于第一距离项和第二距离项，所述第一距离项为所述距离矩阵与传输矩阵的点乘结果，第二距离项包括：基于所述传输矩阵确定的传输质量分布与所述第一用户和第二用户的目标质量分布向量之间的分布差异；根据所述距离矩阵和所述优化的传输矩阵，确定所述样本分布距离。 10.根据权利要求9所述的训练装置，其特征在于，所述预测模块还用于：预测所述第一用户接受第二策略时的反事实结果、以及所述第二用户接受所述第一策略时的反事实结果；其中，所述更新模块具体用于：根据所述第一用户的表征数据与所述第二用户的表征数据的差值、所述第一用户的事实结果与所述第二用户的反事实结果的差值、以及所述第二用户的事实结果与所述第一用户的反事实结果的差值，确定所述距离矩阵。 11.根据权利要求9或10所述的训练装置，其特征在于，所述分布差异为以下两项之和：根据所述传输矩阵确定的对应于所述第一用户的第一传输质量分布向量与其目标质量分布向量之间的第一KL散度，以及，根据所述传输矩阵确定的对应于所述第二用户的第二传输质量分布向量与其目标质量分布向量之间的第二KL散度。 12.根据权利要求11所述的训练装置，其特征在于，所述更新模块用于通过多轮迭代运算确定优化的传输矩阵，具体用于：权　利　要　求　书 2/3 页 3 CN 115423120 A 3

专利 一种业务模型的训练方法、训练装置和计算设备

专利一种业务模型的训练方法、训练装置和计算设备