全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210214025.6 (22)申请日 2022.03.04 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 丁建辉 陈珍  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 吕朝蕙 (51)Int.Cl. G06Q 10/04(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) G06V 20/52(2022.01) (54)发明名称 移动顺序确定模型的训练方法和确定移动 顺序的方法、 装置 (57)摘要 本公开提供了一种移动顺序确定模型的训 练方法、 确定移动顺序的方法、 装置、 电子设备和 存储介质, 涉及人工智 能领域, 具体涉及时空大 数据领域和强化学习领域。 移动顺序确定模型的 训练方法的具体实现方案为: 针对多个第一对象 中的未移动对象, 确定针对未移动对象的环境信 息; 将环境信息输入移动顺序确定模型, 获得针 对多个第一对象的预测概率信息; 根据预测概率 信息, 确定针对移动顺序确定模 型的第一奖励信 息; 以及根据第一奖励信息, 训练移动顺序确定 模型, 其中, 预测概率信息包括多个第一对象中 的每个第一对象作为目标对象的概 率值。 权利要求书3页 说明书13页 附图6页 CN 114580748 A 2022.06.03 CN 114580748 A 1.一种移动顺序确定模型的训练方法, 包括: 针对多个第一对象中的未移动对象, 确定针对所述未移动对象的环境信息; 将所述环境信息输入移动顺序确定模型, 获得针对所述多个第一对象的预测概率信 息; 根据所述预测概 率信息, 确定针对所述移动顺序确定模型的第一奖励信息; 以及 根据所述第一奖励信息, 训练所述移动顺序确定模型, 其中, 所述预测概率信 息包括所述多个第 一对象中的每个第 一对象作为目标对象的概 率值。 2.根据权利要求1所述的方法, 还 包括: 根据多个第 二对象移动至第 二目标区域的历史移动信 息, 对所述移动顺序确定模型预 训练, 其中, 所述历史移动信息包括所述多个第二对象的移动顺序, 以及在所述多个第二对 象中的每 个第二对象移动之前 所确定的针对未移动对象的环境信息 。 3.根据权利要求1所述的方法, 还 包括: 根据所述多个第一对象中的未移动对象, 确定针对所述多个第一对象的掩膜信息; 其 中, 所述掩膜信息包括针对所述每个第一对 象的掩膜值; 针对所述多个第一对 象中已移动 对象的掩膜值 为零, 针对所述未移动对象的掩膜值 为大于零的值; 其中, 所述将所述环境信息输入移动顺序确定模型, 获得针对所述未移动对象的预测 概率信息包括: 将所述环境信息输入移动顺序确定模型, 得到针对所述多个第一对象的初始概率信 息; 以及 根据所述掩膜信息和所述初始概 率信息, 确定所述预测概 率信息。 4.根据权利要求1所述的方法, 还 包括: 响应于所述多个第 一对象中不存在未移动对象, 根据所述多个第 一对象分别移动至对 应的子区域的移动信息, 确定针对所述移动顺序确定模型的第二奖励信息; 以及 根据所述第二奖励信息, 训练所述移动顺序确定模型。 5.根据权利要求1所述的方法, 其中, 所述根据所述预测概率信息, 确定针对所述移动 顺序确定模型的第一奖励信息包括: 根据所述预测概 率信息, 确定所述未移动对象中的目标对象; 以及 根据所述目标对象移动至对应的子区域的移动信 息与理想移动信 息之间的差异, 确定 针对所述移动顺序确定模型的第一奖励信息 。 6.根据权利要求1所述的方法, 其中, 确定针对所述未移动对象的环境信息包括: 确定针对所述多个第一对象的第一目标区域的状态信息; 其中, 所述状态信息指示所 述第一目标区域包括的多个子区域中每个子区域的通行状态; 所述多个子区域包括对应所 述每个第一对象的子区域; 以及 针对所述每个第一对象, 根据所述每个第一对象移动至对应的子区域的最短路径, 确 定针对所述每 个第一对象的属性信息 。 7.根据权利要求6所述的方法, 其中, 所述根据所述每个未移动对象移动至对应的子区 域的最短路径, 确定针对所述每 个未移动对象的属性信息包括以下至少之一:权 利 要 求 书 1/3 页 2 CN 114580748 A 2根据所述每个第 一对象移动至对应的子区域的最短路径, 确定所述每个第 一对象移动 至对应的子区域的最短耗时; 根据所述每个第一对象移动至对应的子区域的最短路径和除所述每个第一对象外的 其他未移动对象移动至对应的子区域的最短路径, 确定指示最短路径是否存在交叉点的属 性信息。 8.一种确定移动顺序的方法, 包括: 针对多个对象中的未移动对象, 确定针对所述未移动对象的环境信息; 将所述环境信息 输入移动顺序确定模型, 获得针对所述多个对象的概 率信息; 以及 根据所述概率信息, 从所述未移动对象中选择目标对象, 以控制所述目标对象移动至 所述目标区域中针对所述目标对象的子区域, 其中, 所述移动顺序确定模型是采用权利要求1~7中任一项所述的方法训练得到的, 所述概率信息包括所述多个对象中的每 个对象属于所述目标对象的概 率值。 9.一种移动顺序确定模型的训练装置, 包括: 信息确定模块, 用于针对多个第一对象中的未移动对象, 确定针对所述未移动对象的 环境信息; 概率获得模块, 用于将所述环境信息输入移动顺序确定模型, 获得针对所述多个第一 对象的预测概 率信息; 第一奖励确定模块, 用于根据所述预测概率信息, 确定针对所述移动顺序确定模型的 第一奖励信息; 以及 第一训练模块, 用于根据所述第一奖励信息, 训练所述移动顺序确定模型, 其中, 所述预测概率信 息包括所述多个第 一对象中的每个第 一对象作为目标对象的概 率值。 10.根据权利要求9所述的装置, 还 包括: 预训练模块, 用于根据多个第二对象移动至第二目标区域的历史移动信息, 对所述移 动顺序确定模型 预训练, 其中, 所述历史移动信息包括所述多个第二对象的移动顺序, 以及在所述多个第二对 象中的每 个第二对象移动之前 所确定的针对未移动对象的环境信息 。 11.根据权利要求9所述的装置, 还 包括: 掩膜确定模块, 用于根据所述多个第一对象中的未移动对象, 确定针对所述多个第一 对象的掩膜信息; 其中, 所述掩膜信息包括针对所述每个第一对象的掩膜值; 针对所述多个 第一对象中已移动对象的掩膜值 为零, 针对所述未移动对象的掩膜值 为大于零的值; 其中, 所述 概率获得模块包括: 初始概率获得子模块, 用于将所述环境信息输入移动顺序确定模型, 得到针对所述多 个第一对象的初始概 率信息; 以及 预测概率获得子模块, 用于根据所述掩膜信息和所述初始概率信息, 确定所述预测概 率信息。 12.根据权利要求9所述的装置, 还 包括: 第二奖励确定模块, 用于响应于所述多个第一对象中不存在未移动对象, 根据所述多 个第一对象分别移动至对应的子区域的移动信息, 确定针对所述移动顺序确定模型的第二权 利 要 求 书 2/3 页 3 CN 114580748 A 3

.PDF文档 专利 移动顺序确定模型的训练方法和确定移动顺序的方法、装置

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 移动顺序确定模型的训练方法和确定移动顺序的方法、装置 第 1 页 专利 移动顺序确定模型的训练方法和确定移动顺序的方法、装置 第 2 页 专利 移动顺序确定模型的训练方法和确定移动顺序的方法、装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:08:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。