专利 一种基于深度强化学习的多机场协同放行方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111623998.7 (22)申请日 2021.12.28 (71)申请人北京航空航天大学地址 100191 北京市海淀区学院路37号 (72)发明人蔡开泉　杨杨　李梓琦　李悦　 (74)专利代理机构北京永创新实专利事务所 11121 专利代理师易卜 (51)Int.Cl. G06Q 10/10(2012.01) G06Q 10/06(2012.01) G06Q 10/04(2012.01) G06Q 50/30(2012.01) G06N 20/00(2019.01) (54)发明名称一种基于深度强化学习的多机场协同放行方法 (57)摘要本发明提出了一种基于深度强化学习的多机场协同放行方法，属于空中交通管理智能化领域，首先，针对待协同放行的m个机场，每个机场中涉及的各航空公司，将本航司在此m个机场中的所有航班按优先级从高到低排序；基于机场公平性生成满足总延误时间最小的初始离港航班队列；然后，基于不同航班的优先级，对初始离港航班队列建立以最小化总延误成本为目标的多机场协同放行模型；并将多机场协同放行模型转化为相对应的马尔科夫决策过程；最后，选择深度强化学习算法A3C对马尔科夫决策过程进行求解，得到最终的多机场协同放行离港的队列，降低了总延误成本。本发明设计了一种新的多机场协同放行方法，以减少航班延误，提高多机场系统的运行效益。权利要求书3页说明书10页附图2页 CN 114548893 A 2022.05.27 CN 114548893 A 1.一种基于深度强化学习的多机场协同放行方法，其特征在于，具体步骤如下：首先，针对待协同放行的m个机场，每个机场中涉及的各航空公司，按优先级将本航司在此m个机场中的所有航班从高到低排序；保证每家航空公司航班优先级分布的拟合曲线符合幂律分布，即体现航空公司的公平性；然后，基于机场公平性生成满足总延误时间最小的初始离港航班队列；针对不同优先级航班造成不同延误成本的特点，对初始离港航班队列建立以最小化总延误成本为目标的多机场协同放行模型，并转化为相对应的马尔科夫决策过程；最后，选择深度强化学习算法A3C对马尔科夫决策过程进行求解，得到最终的总延误时间保持最小、总延误成本更低的多机场协同放行离港的队列。 2.如权利要求1所述的一种基于深度强化学习的多机场协同放行方法，其特征在于，所述的优先级按机型、载客量、载客率、是否载有贵宾和是否有紧急特殊任务从高到低排序，依次为优先级10至优先级1，各航空公司根据自身实际情况制定优先级设置标准，并对每架航班的优先级进行设置；优先级设置标准为： 10种不同优先级的航班数量的拟合曲线满足幂律分布的概率密度函数： f(x)＝cx‑α‑1,x→∞ (1) 式中： c和α均为常数，当航空公司的总航班数量不同时，对应的c和α有所不同，但航空公司设置的本航司航班优先级分布的拟合曲线均呈现长尾函数态，每家航空公司不同优先级航班的比例基本相同。 3.如权利要求1所述的一种基于深度强化学习的多机场协同放行方法，其特征在于，所述的初始离港航班队列即：将延误时间按航班数量比例分配到各机场中，各航班将自身的计划起飞时间加上分配的延误，按时间进行排队，根据先到先服务原则形成初始离港航班队列；具体过程为：首先，生成基于机场公平性且满足总延误时间最小的目标函数；目标函数为：式中： V＝{v1,v2,...vm}为所有机场集合；为机场vm的所有航班集合，， n为航班数量； m个机场中所有航班集合为为航班fn可用的离港时隙集合；为航班fn的延误时间； xfni为航班fn是否分配到离港时隙i中的决策变量；表示单个机场v的航班平均延误时间；后一项表示m个机场中所有航班的平均延误时间；单个机场的航班平均延误时间与多机场中所有航班平均延误时间的方差最小，体现了权　利　要　求　书 1/3 页 2 CN 114548893 A 2机场公平性；然后，利用整数规划算法对目标函数进行求解，得到满足机场公平性的带有基线延误的初始离港航班队列。 4.如权利要求1所述的一种基于深度强化学习的多机场协同放行方法，其特征在于，所述的多机场协同放行模型公式如下：式中： cfh为是否暂停航班的决策变量， Eh为机场热点h内航班分配延误的最大值；机场热点h是指航班起飞时，离港机场附近空域发生拥堵，机场的离港移交点就变为热点； Bfh为航班f进入机场热点h的时间； Sfh为航班f计划进入机场热点h的时间； Df为航班f在地面的等待成本； pfh为是否保护航班的决策变量， Bfh‑Sfh为航班f的基线延误； Vf为航空公司保护航班f创造的价值； kfh为是否保持航班的决策变量； Mf为航班f延误的罚款； Oh为机场热点h的 OI值； OI为机场移交点的运营指数； OI＝100*D/C； D为移交点在发生拥堵时的航班数量； C为移交点的容量； Ch为移交点处在不同热区时空域资源的转换因子，热区为热点存在的时间区间；为在机场热点h可保护的航班数量； OC值为每一架航班自己的可操作指数；目标函数为暂停航班额外产生的地面等待成本、保护航班减少的地面等待成本、保护航班额外的奖励、暂停和保持航班原本的延误罚款四项之和；约束条件依次为： C1表示在基线延误中，每架航班的OC值为100，暂停低优先级的某航班释放其OC值，从100降到0，保护高优先级的某航班则提升该航班的OC值至热点的OI值，保持基线延误航班的OC值不变，依旧为 100，调整后移交点所有航班的OC值之和不能大于调整前移交点所有航班的OC值之和； C2表示同一移交点在一天内可能出现多个热区，在前一热区出现时，暂停低优先级的航班节省下的空域资源转换到本次热区继续使用，但前一热区暂停一架航班节省的OC值会受到时间影响而小于100，因此前一热区暂停航班节省下来的OC值需要乘上一个小于1的 Ch； C3表示在热点中实际保护航班的数量应小于等于在热点中保护阈值内的航班数量； C4表示某一航班在热点内所处的状态唯一，即受保护、被暂停或保持基线延误； C5表示设置的决策变量是0 ‑1整数型决策变量，所有决策变量服从二元约束。 5.如权利要求1所述的一种基于深度强化学习的多机场协同放行方法，其特征在于，所述的马尔科夫决策过程需要解决的问题为：多机场系统根据先到先服务原则为N个离港航权　利　要　求　书 2/3 页 3 CN 114548893 A 3

专利 一种基于深度强化学习的多机场协同放行方法

专利一种基于深度强化学习的多机场协同放行方法