专利移动顺序确定模型的训练方法和确定移动顺序的方法、装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210214025.6 (22)申请日 2022.03.04 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人丁建辉　陈珍　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师吕朝蕙 (51)Int.Cl. G06Q 10/04(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) G06V 20/52(2022.01) (54)发明名称移动顺序确定模型的训练方法和确定移动顺序的方法、装置 (57)摘要本公开提供了一种移动顺序确定模型的训练方法、确定移动顺序的方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及时空大数据领域和强化学习领域。移动顺序确定模型的训练方法的具体实现方案为：针对多个第一对象中的未移动对象，确定针对未移动对象的环境信息；将环境信息输入移动顺序确定模型，获得针对多个第一对象的预测概率信息；根据预测概率信息，确定针对移动顺序确定模型的第一奖励信息；以及根据第一奖励信息，训练移动顺序确定模型，其中，预测概率信息包括多个第一对象中的每个第一对象作为目标对象的概率值。权利要求书3页说明书13页附图6页 CN 114580748 A 2022.06.03 CN 114580748 A 1.一种移动顺序确定模型的训练方法，包括：针对多个第一对象中的未移动对象，确定针对所述未移动对象的环境信息；将所述环境信息输入移动顺序确定模型，获得针对所述多个第一对象的预测概率信息；根据所述预测概率信息，确定针对所述移动顺序确定模型的第一奖励信息；以及根据所述第一奖励信息，训练所述移动顺序确定模型，其中，所述预测概率信息包括所述多个第一对象中的每个第一对象作为目标对象的概率值。 2.根据权利要求1所述的方法，还包括：根据多个第二对象移动至第二目标区域的历史移动信息，对所述移动顺序确定模型预训练，其中，所述历史移动信息包括所述多个第二对象的移动顺序，以及在所述多个第二对象中的每个第二对象移动之前所确定的针对未移动对象的环境信息。 3.根据权利要求1所述的方法，还包括：根据所述多个第一对象中的未移动对象，确定针对所述多个第一对象的掩膜信息；其中，所述掩膜信息包括针对所述每个第一对象的掩膜值；针对所述多个第一对象中已移动对象的掩膜值为零，针对所述未移动对象的掩膜值为大于零的值；其中，所述将所述环境信息输入移动顺序确定模型，获得针对所述未移动对象的预测概率信息包括：将所述环境信息输入移动顺序确定模型，得到针对所述多个第一对象的初始概率信息；以及根据所述掩膜信息和所述初始概率信息，确定所述预测概率信息。 4.根据权利要求1所述的方法，还包括：响应于所述多个第一对象中不存在未移动对象，根据所述多个第一对象分别移动至对应的子区域的移动信息，确定针对所述移动顺序确定模型的第二奖励信息；以及根据所述第二奖励信息，训练所述移动顺序确定模型。 5.根据权利要求1所述的方法，其中，所述根据所述预测概率信息，确定针对所述移动顺序确定模型的第一奖励信息包括：根据所述预测概率信息，确定所述未移动对象中的目标对象；以及根据所述目标对象移动至对应的子区域的移动信息与理想移动信息之间的差异，确定针对所述移动顺序确定模型的第一奖励信息。 6.根据权利要求1所述的方法，其中，确定针对所述未移动对象的环境信息包括：确定针对所述多个第一对象的第一目标区域的状态信息；其中，所述状态信息指示所述第一目标区域包括的多个子区域中每个子区域的通行状态；所述多个子区域包括对应所述每个第一对象的子区域；以及针对所述每个第一对象，根据所述每个第一对象移动至对应的子区域的最短路径，确定针对所述每个第一对象的属性信息。 7.根据权利要求6所述的方法，其中，所述根据所述每个未移动对象移动至对应的子区域的最短路径，确定针对所述每个未移动对象的属性信息包括以下至少之一：权　利　要　求　书 1/3 页 2 CN 114580748 A 2根据所述每个第一对象移动至对应的子区域的最短路径，确定所述每个第一对象移动至对应的子区域的最短耗时；根据所述每个第一对象移动至对应的子区域的最短路径和除所述每个第一对象外的其他未移动对象移动至对应的子区域的最短路径，确定指示最短路径是否存在交叉点的属性信息。 8.一种确定移动顺序的方法，包括：针对多个对象中的未移动对象，确定针对所述未移动对象的环境信息；将所述环境信息输入移动顺序确定模型，获得针对所述多个对象的概率信息；以及根据所述概率信息，从所述未移动对象中选择目标对象，以控制所述目标对象移动至所述目标区域中针对所述目标对象的子区域，其中，所述移动顺序确定模型是采用权利要求1～7中任一项所述的方法训练得到的，所述概率信息包括所述多个对象中的每个对象属于所述目标对象的概率值。 9.一种移动顺序确定模型的训练装置，包括：信息确定模块，用于针对多个第一对象中的未移动对象，确定针对所述未移动对象的环境信息；概率获得模块，用于将所述环境信息输入移动顺序确定模型，获得针对所述多个第一对象的预测概率信息；第一奖励确定模块，用于根据所述预测概率信息，确定针对所述移动顺序确定模型的第一奖励信息；以及第一训练模块，用于根据所述第一奖励信息，训练所述移动顺序确定模型，其中，所述预测概率信息包括所述多个第一对象中的每个第一对象作为目标对象的概率值。 10.根据权利要求9所述的装置，还包括：预训练模块，用于根据多个第二对象移动至第二目标区域的历史移动信息，对所述移动顺序确定模型预训练，其中，所述历史移动信息包括所述多个第二对象的移动顺序，以及在所述多个第二对象中的每个第二对象移动之前所确定的针对未移动对象的环境信息。 11.根据权利要求9所述的装置，还包括：掩膜确定模块，用于根据所述多个第一对象中的未移动对象，确定针对所述多个第一对象的掩膜信息；其中，所述掩膜信息包括针对所述每个第一对象的掩膜值；针对所述多个第一对象中已移动对象的掩膜值为零，针对所述未移动对象的掩膜值为大于零的值；其中，所述概率获得模块包括：初始概率获得子模块，用于将所述环境信息输入移动顺序确定模型，得到针对所述多个第一对象的初始概率信息；以及预测概率获得子模块，用于根据所述掩膜信息和所述初始概率信息，确定所述预测概率信息。 12.根据权利要求9所述的装置，还包括：第二奖励确定模块，用于响应于所述多个第一对象中不存在未移动对象，根据所述多个第一对象分别移动至对应的子区域的移动信息，确定针对所述移动顺序确定模型的第二权　利　要　求　书 2/3 页 3 CN 114580748 A 3

专利 移动顺序确定模型的训练方法和确定移动顺序的方法、装置

专利移动顺序确定模型的训练方法和确定移动顺序的方法、装置