专利 网络的训练及设备的控制方法、装置、设备以及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111672995.2 (22)申请日 2021.12.31 (71)申请人上海商汤临港智能科技有限公司地址 200232 上海市浦东新区中国（上海）自由贸易试验区临港新片区泥城镇秋山路1775弄29、 30号2楼01室 (72)发明人刘杰　张胤民　李楚鸣　 (74)专利代理机构北京中知恒瑞知识产权代理事务所(普通合伙) 11889 代理人袁忠林 (51)Int.Cl. G06N 3/08(2006.01) (54)发明名称网络的训练及设备的控制方法、装置、设备以及存储介质 (57)摘要本公开提供了一种网络的训练及设备的控制方法、装置、设备以及存储介质，其中，该方法包括：从离线数据池中获取训练样本数据；基于所述策略网络以及所述训练样本数据，确定目标策略；基于所述评价网络，对所述目标策略进行评价，生成相应的评价值；所述评价值用于指示所述策略网络调整所述目标策略；基于预设的目标损失函数，对所述评价网络的参数进行调整；其中，所述目标损失函数包括限制损失函数以及利用损失函数，所述限制损失函数用于最小化所述评价值，所述利用损失函数用于最大化所述评价值，且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。本公开实施例，可以提升训练的稳定性。权利要求书2页说明书11页附图4页 CN 114219087 A 2022.03.22 CN 114219087 A 1.一种神经网络的训练方法，其特征在于，所述神经网络包括策略网络和评价网络，所述方法包括：从离线数据池中获取训练样本数据；所述训练样本数据包括第一状态、动作以及第二状态，所述第二状态为执行所述动作后转移至的状态；基于所述策略网络以及所述训练样本数据，确定目标策略；基于所述评价网络，对所述目标策略进行评价，生成相应的评价值；所述评价值用于指示所述策略网络调整所述目标策略；基于预设的目标损失函数，对所述评价网络的参数进行调整；其中，所述目标损失函数包括限制损失函数以及利用损失函数，所述限制损失函数用于最小化所述评价值，所述利用损失函数用于最大化所述评价值，且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。 2.根据权利要求1所述的方法，其特征在于，所述限制损失函数包括权重系数，所述权重系数与所述利用损失函数的函数值正相关。 3.根据权利要求2所述的方法，其特征在于，所述权重系数为所述利用损失函数的函数值。 4.根据权利要求2所述的方法，其特征在于，通过如下步骤确定所述权重系数：基于多次训练中每次得到的所述利用损失函数的函数值，确定所述利用损失函数的函数值的中位数；基于所述中位数以及所述利用损失函数的函数值，确定所述权重系数。 5.根据权利要求4所述的方法，其特征在于，所述基于所述中位数以及所述利用损失函数的函数值，确定所述权重系数，包括：基于所述中位数以及所述利用损失函数的函数值，确定比例系数；基于所述比例系数与所述利用损失函数的函数值的乘积，确定所述权重系数。 6.根据权利要求1所述的方法，其特征在于，所述利用损失函数包括第一项以及第二项，所述第一项为所述评价网络输出的评价值，所述第二项为目标评价网络输出的评价值。 7.根据权利要求2所述的方法，其特征在于，所述限制损失函数包括第一部分以及第二部分，所述权重系数分别作用于所述第一部分以及所述第二部分；所述第一部分用于最小化所述评价网络基于全空间数据集得到的评价值，所述第二部分用于最大化所述评价网络基于所述离线数据池得到的评价值。 8.一种智能行驶设备的控制方法，其特征在于，包括：获取智能行驶设备所处的环境状态；基于目标神经网络以及所述环境状态，确定设备控制策略；所述目标神经网络是根据权利要求1 ‑7任一所述的神经网络的训练方法训练得到；基于所述设备控制策略控制所述智能行驶设备。 9.一种神经网络的训练装置，其特征在于，包括：样本数据获取模块，用于从离线数据池中获取训练样本数据；所述训练样本数据包括第一状态、动作以及第二状态，所述第二状态为执行所述动作后转移至的状态；目标策略确定模块，用于基于所述策略网络以及所述训练样本数据，确定目标策略；评价结果确定模块，用于基于所述评价网络，对所述目标策略进行评价，生成相应的评权　利　要　求　书 1/2 页 2 CN 114219087 A 2价值；所述评价值用于指示所述策略网络调整所述目标策略；网络参数调整模块，用于基于预设的目标损失函数，对所述评价网络的参数进行调整；其中，所述目标损失函数包括限制损失函数以及利用损失函数，所述限制损失函数用于最小化所述评价值，所述利用损失函数用于最大化所述评价值，且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。 10.一种智能行驶设备的控制装置，其特征在于，包括：环境状态获取模块，用于获取智能行驶设备所处的环境状态；控制策略确定模块，用于基于目标神经网络以及所述环境状态，确定设备控制策略；所述目标神经网络是根据权利要求1 ‑7任一所述的神经网络的训练方法训练得到；行驶设备控制模块，用于基于所述设备控制策略控制所述智能行驶设备。 11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求 1至7任意一项所述的神经网络的训练方法或者如权利要求8所述的智能行驶设备的控制方法。 12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的神经网络的训练方法或者如权利要求8所述的智能行驶设备的控制方法。权　利　要　求　书 2/2 页 3 CN 114219087 A 3

专利 网络的训练及设备的控制方法、装置、设备以及存储介质

专利网络的训练及设备的控制方法、装置、设备以及存储介质