全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111481018.4 (22)申请日 2021.12.07 (71)申请人 阿里巴巴达摩院 (杭州) 科技有限公 司 地址 310023 浙江省杭州市余杭区五常街 道文一西路969号3幢5层516室 (72)发明人 陈俊波 雷岚馨 敬巍 王刚  (74)专利代理 机构 北京合智同创知识产权代理 有限公司 1 1545 代理人 李杰 兰淑铎 (51)Int.Cl. B60W 60/00(2020.01) G06Q 10/04(2012.01) G06N 3/08(2006.01) (54)发明名称 自动驾驶的决策规划方法、 电子设备及计算 机存储介质 (57)摘要 本申请实施例提供了一种 自动驾驶的决策 规划方法、 电子设备及计算机存储介质, 其中, 自 动驾驶的决策规划方法包括: 获取待决策对象在 连续行为空间的行驶感知信息, 其中, 所述行驶 感知信息包括: 与所述待决策对象相关的几何信 息、 历史行驶轨迹信息和地图信息; 根据所述行 驶感知信息和行驶目标信息, 获得符合混合高斯 分布的多个规划策略及各个规划策略对应的策 略评估; 根据所述多个规划策略及各个规划策略 对应的策略评估, 为所述待决策对象进行决策规 划。 通过本申请实施例, 可有效针对自动驾驶中 的强交互场景下进行决策规划, 提升决策效果。 权利要求书2页 说明书13页 附图4页 CN 113879339 A 2022.01.04 CN 113879339 A 1.一种自动驾驶的决策规划方法, 包括: 获取待决策对象在连续行为空间的行驶感知信 息, 其中, 所述行驶感知信息包括: 与所 述待决策对象相关的几何信息、 历史行驶轨 迹信息和地图信息; 根据所述行驶感知信 息和行驶目标信 息, 获得符合混合高斯分布的多个规划策略及各 个规划策略对应的策略评估; 根据所述多个规划策略及各个规划策略对应的策略评估, 为所述待决策对象进行 决策 规划。 2.根据权利要求1所述的方法, 其中, 所述根据所述行驶感知信息和行驶目标信息, 获 得符合混合高斯分布的多个规划策略及各个规划策略对应的策略评估, 包括: 将所述行驶感知信 息输入图神经网络模型, 以通过所述图神经网络模型进行特征提取 和基于多头自注意力机制的特 征融合, 获得 行驶感知信息对应的融合特 征向量; 将所述融合特征向量和所述待决策对象的行驶目标信息对应的向量输入策略价值模 型, 通过所述策略价值模型获得符合混合高斯分布的多个规划策略指示及根据所述规划策 略指示生成的各个规划策略对应的策略评估。 3.根据权利要求2所述的方法, 其中, 所述策略价值模型包括策略网络部分和价值网络 部分; 其中, 所述策略网络部分为混合密度网络, 用于输出符合混合高斯分布的多个规划策 略指示; 所述价值网络部分用于对根据所述策略网络部 分输出的规划策略指示生成的多个 规划策略进行估值, 输出 各个规划策略对应的策略评估。 4.根据权利要求2或3所述的方法, 其中, 所述图神经网络模型包括几何子图层、 行驶轨 迹子图层、 地图子图层、 池化层和全局图层; 其中: 所述几何子图层用于对所述几何信 息进行特征提取, 所述行驶轨迹子图层用于对所述 历史行驶轨 迹信息进行 特征提取, 所述 地图子图层用于对所述 地图信息进行 特征提取; 所述池化层用于分别对所述几何子 图层、 所述行驶轨迹子 图层、 和所述地图子 图层各 自提取的特征进行特征聚合; 所述全局图层用于对 所述几何子图层、 所述行驶轨迹子图层、 和所述地图子图层分别获得的聚合后的特 征进行多头自注意力处 理, 获得融合特 征向量。 5.根据权利要求2或3所述的方法, 其中, 所述方法还 包括: 基于MCTS生成的决策规划监 督信息, 对所述策略价 值模型进行训练。 6.根据权利要求5所述的方法, 其中, 所述基于MCTS生成的决策规划监督信息, 对所述 策略价值模型进行训练, 包括: 在每次迭代训练中, 获得所述MCTS基于连续行为空间的行驶感知样本数据、 行驶目标 样本信息、 和KR ‑AUCB, 输出的多个规划策略样本的信息; 以所述多个规划策略样本中, 策略评估的估值最高的规划策略样本的信息为监督信 息, 对所述策略价 值模型进行训练。 7.根据权利要求6所述的方法, 其中, 所述获得所述MCTS基于连续行为空间的行驶感知 样本数据、 行驶目标样本信息、 和KR ‑AUCB, 输出的多个规划策略样本的信息, 包括: 基于连续行为空间的行驶感知样本数据和行驶目标样本信息, 使用KR ‑AUCB从对应的 MCT中选取节点形成初始规划策略; 根据强化网络模型输出的符合混合高斯分布的多个动作样本, 为所述初始规划策略的权 利 要 求 书 1/2 页 2 CN 113879339 A 2叶子节点创建多个子节点; 基于创建的多个子节点与所述初始规划策略, 获得多条扩展规划策略; 对多条扩展规划策略进行 策略模拟, 以获得 各条扩展规划策略对应的策略评估; 根据各条扩展规划策略及其对应的策略评估, 输出多个规划策略样本 。 8.根据权利要求7所述的方法, 其中, 所述基于创建的多个子节点与所述初始规划策 略, 获得多条扩展规划策略, 包括: 针对创建的多个子节点中的每个子节点, 使用高斯过程函数拟合该子节点的信息, 根 据拟合后的高斯过程均值、 标准差、 该子节点与其它子节点之 间的距离, 获得该子节点的候 选度; 根据各个子节点的候选度, 从多个子节点中选出候选 子节点; 根据选出的候选 子节点和所述初始规划策略, 获得多条扩展规划策略。 9.根据权利要求7或8所述的方法, 其中, 所述使用KR ‑AUCB从对应的MCT中选取节点形 成初始规划策略, 包括: 首先从MCT中选取一个KR ‑AUCB值最大节点; 针对该节点对应的至少一级非叶子节点的每级非叶子节点, 选择出KR ‑AUCB值高于其 它同级子节点或者访问次数低于其它同级子节点的非叶子节点; 基于所述至少一级非叶子节点中的最末一级非叶子节点所对应的叶子节点中, 选择出 叶子节点; 根据选择 出的各级节点, 形成初始规划策略。 10.一种电子设备, 包括: 处理器、 存储器、 通信 接口和通信总线, 所述处理器、 所述存储 器和所述 通信接口通过 所述通信总线完成相互间的通信; 所述存储器用于存放至少一可执行指令, 所述可执行指令使所述处理器执行如权利要 求1‑9中任一项所述的自动驾驶的决策规划方法对应的操作。 11.一种计算机存储介质, 其上存储有计算机程序, 该程序被处理器执行时实现如权利 要求1‑9中任一项所述的自动驾驶的决策规划方法。 12.一种计算机程序产品, 包括计算机指令, 所述计算机指令指示计算设备执行如权利 要求1‑9中任一项所述的自动驾驶的决策规划方法对应的操作。权 利 要 求 书 2/2 页 3 CN 113879339 A 3

.PDF文档 专利 自动驾驶的决策规划方法、电子设备及计算机存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 自动驾驶的决策规划方法、电子设备及计算机存储介质 第 1 页 专利 自动驾驶的决策规划方法、电子设备及计算机存储介质 第 2 页 专利 自动驾驶的决策规划方法、电子设备及计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:44:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。