专利自动驾驶的决策规划方法、电子设备及计算机存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111481018.4 (22)申请日 2021.12.07 (71)申请人阿里巴巴达摩院（杭州）科技有限公司地址 310023 浙江省杭州市余杭区五常街道文一西路969号3幢5层516室 (72)发明人陈俊波　雷岚馨　敬巍　王刚　 (74)专利代理机构北京合智同创知识产权代理有限公司 1 1545 代理人李杰　兰淑铎 (51)Int.Cl. B60W 60/00(2020.01) G06Q 10/04(2012.01) G06N 3/08(2006.01) (54)发明名称自动驾驶的决策规划方法、电子设备及计算机存储介质 (57)摘要本申请实施例提供了一种自动驾驶的决策规划方法、电子设备及计算机存储介质，其中，自动驾驶的决策规划方法包括：获取待决策对象在连续行为空间的行驶感知信息，其中，所述行驶感知信息包括：与所述待决策对象相关的几何信息、历史行驶轨迹信息和地图信息；根据所述行驶感知信息和行驶目标信息，获得符合混合高斯分布的多个规划策略及各个规划策略对应的策略评估；根据所述多个规划策略及各个规划策略对应的策略评估，为所述待决策对象进行决策规划。通过本申请实施例，可有效针对自动驾驶中的强交互场景下进行决策规划，提升决策效果。权利要求书2页说明书13页附图4页 CN 113879339 A 2022.01.04 CN 113879339 A 1.一种自动驾驶的决策规划方法，包括：获取待决策对象在连续行为空间的行驶感知信息，其中，所述行驶感知信息包括：与所述待决策对象相关的几何信息、历史行驶轨迹信息和地图信息；根据所述行驶感知信息和行驶目标信息，获得符合混合高斯分布的多个规划策略及各个规划策略对应的策略评估；根据所述多个规划策略及各个规划策略对应的策略评估，为所述待决策对象进行决策规划。 2.根据权利要求1所述的方法，其中，所述根据所述行驶感知信息和行驶目标信息，获得符合混合高斯分布的多个规划策略及各个规划策略对应的策略评估，包括：将所述行驶感知信息输入图神经网络模型，以通过所述图神经网络模型进行特征提取和基于多头自注意力机制的特征融合，获得行驶感知信息对应的融合特征向量；将所述融合特征向量和所述待决策对象的行驶目标信息对应的向量输入策略价值模型，通过所述策略价值模型获得符合混合高斯分布的多个规划策略指示及根据所述规划策略指示生成的各个规划策略对应的策略评估。 3.根据权利要求2所述的方法，其中，所述策略价值模型包括策略网络部分和价值网络部分；其中，所述策略网络部分为混合密度网络，用于输出符合混合高斯分布的多个规划策略指示；所述价值网络部分用于对根据所述策略网络部分输出的规划策略指示生成的多个规划策略进行估值，输出各个规划策略对应的策略评估。 4.根据权利要求2或3所述的方法，其中，所述图神经网络模型包括几何子图层、行驶轨迹子图层、地图子图层、池化层和全局图层；其中：所述几何子图层用于对所述几何信息进行特征提取，所述行驶轨迹子图层用于对所述历史行驶轨迹信息进行特征提取，所述地图子图层用于对所述地图信息进行特征提取；所述池化层用于分别对所述几何子图层、所述行驶轨迹子图层、和所述地图子图层各自提取的特征进行特征聚合；所述全局图层用于对所述几何子图层、所述行驶轨迹子图层、和所述地图子图层分别获得的聚合后的特征进行多头自注意力处理，获得融合特征向量。 5.根据权利要求2或3所述的方法，其中，所述方法还包括：基于MCTS生成的决策规划监督信息，对所述策略价值模型进行训练。 6.根据权利要求5所述的方法，其中，所述基于MCTS生成的决策规划监督信息，对所述策略价值模型进行训练，包括：在每次迭代训练中，获得所述MCTS基于连续行为空间的行驶感知样本数据、行驶目标样本信息、和KR ‑AUCB，输出的多个规划策略样本的信息；以所述多个规划策略样本中，策略评估的估值最高的规划策略样本的信息为监督信息，对所述策略价值模型进行训练。 7.根据权利要求6所述的方法，其中，所述获得所述MCTS基于连续行为空间的行驶感知样本数据、行驶目标样本信息、和KR ‑AUCB，输出的多个规划策略样本的信息，包括：基于连续行为空间的行驶感知样本数据和行驶目标样本信息，使用KR ‑AUCB从对应的 MCT中选取节点形成初始规划策略；根据强化网络模型输出的符合混合高斯分布的多个动作样本，为所述初始规划策略的权　利　要　求　书 1/2 页 2 CN 113879339 A 2叶子节点创建多个子节点；基于创建的多个子节点与所述初始规划策略，获得多条扩展规划策略；对多条扩展规划策略进行策略模拟，以获得各条扩展规划策略对应的策略评估；根据各条扩展规划策略及其对应的策略评估，输出多个规划策略样本。 8.根据权利要求7所述的方法，其中，所述基于创建的多个子节点与所述初始规划策略，获得多条扩展规划策略，包括：针对创建的多个子节点中的每个子节点，使用高斯过程函数拟合该子节点的信息，根据拟合后的高斯过程均值、标准差、该子节点与其它子节点之间的距离，获得该子节点的候选度；根据各个子节点的候选度，从多个子节点中选出候选子节点；根据选出的候选子节点和所述初始规划策略，获得多条扩展规划策略。 9.根据权利要求7或8所述的方法，其中，所述使用KR ‑AUCB从对应的MCT中选取节点形成初始规划策略，包括：首先从MCT中选取一个KR ‑AUCB值最大节点；针对该节点对应的至少一级非叶子节点的每级非叶子节点，选择出KR ‑AUCB值高于其它同级子节点或者访问次数低于其它同级子节点的非叶子节点；基于所述至少一级非叶子节点中的最末一级非叶子节点所对应的叶子节点中，选择出叶子节点；根据选择出的各级节点，形成初始规划策略。 10.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1‑9中任一项所述的自动驾驶的决策规划方法对应的操作。 11.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1‑9中任一项所述的自动驾驶的决策规划方法。 12.一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1‑9中任一项所述的自动驾驶的决策规划方法对应的操作。权　利　要　求　书 2/2 页 3 CN 113879339 A 3

专利 自动驾驶的决策规划方法、电子设备及计算机存储介质

专利自动驾驶的决策规划方法、电子设备及计算机存储介质