全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111284086.1 (22)申请日 2021.11.01 (71)申请人 山东大学 地址 250101 山东省济南市高新区舜华路 1500号 (72)发明人 孔雨昕 陈志勇 史玉良  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 代理人 张勇 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 10/08(2012.01) G06N 20/00(2019.01) (54)发明名称 一种基于强化学习的集装箱装卸智能化方 法及系统 (57)摘要 本发明提供了一种基于强化学习的集装箱 装卸智能化方法, 包括: 获取集装箱尺寸数据和 装卸计划; 获取多个智 能体的初始状态、 参数 以 及分配任务; 根据分配任务, 利用智 能体强化学 习模型得出决策结果; 其中, 所述智 能体包括堆 场智能体、 装卸设备智 能体和泊位智 能体, 所述 利用智能体强化学习模型得出决策结果, 包括对 分配任务和 智能体进行划分, 建立智能体强化学 习模型, 并设置每个智能体在环境中的状态空 间、 动作空间及奖励值。 本发明建立了强化学习 模型, 通过多智 能体系统不断迭代学习, 自动生 成集装箱装卸计划, 取代了业务人员人工制定装 卸计划的旧模式, 实现了基于多智能体强化学习 的集装箱装卸流程智能化, 为智慧港口的建设打 下了基础。 权利要求书1页 说明书6页 附图5页 CN 114186712 A 2022.03.15 CN 114186712 A 1.一种基于强化学习的集装箱装卸智能化方法, 其特 征在于, 包括: 获取集装箱 尺寸数据和装卸计划; 获取多个智能体的初始状态、 参数以及分配任务; 根据分配任务, 利用智能体强化学习模型 得出决策结果; 其中, 所述智能体包括堆场智能体、 装卸设备智能体和泊位智能体, 所述利用智能体强 化学习模 型得出决策结果, 包括对分配任务和智能体进 行划分, 建立智能体强化学习模型, 并设置每 个智能体在环境中的状态空间、 动作空间及奖励值。 2.如权利要求1所述的一种基于强化学习的集装箱装卸智能化方法, 其特征在于, 所述 智能体的初始状态包括泊位智能体的使用情况及泊位规格, 装卸设备智能体的使用情况及 规格、 种类, 堆场智能体的在场箱情况。 3.如权利要求2所述的一种基于强化学习的集装箱装卸智能化方法, 其特征在于, 所述 智能体根据分配的任务及自身状态, 得到决策动作, 经过K步计算后, 计算已存 决策动作及 状态特征。 4.如权利要求3所述的一种基于强化学习的集装箱装卸智能化方法, 其特征在于, 所述 智能体将K步决策动作后将形成的状态特 征、 决策动作和奖励值上传至经验 池, 形成经验。 5.如权利要求4所述的一种基于强化学习的集装箱装卸智能化方法, 其特征在于, 上传 经验池后, 对智能体的参数进行聚合处 理, 并将聚合结果返回给智能体进行参数 更新。 6.如权利要求5所述的一种基于强化学习的集装箱装卸智能化方法, 其特征在于, 参数 更新后, 根据抽样概率抽样全部经验, 所述智能体根据抽样经验迭代训练优化智能体强化 学习模型, 直到 完成所有任务。 7.如权利要求6所述的一种基于强化学习的集装箱装卸智能化方法, 其特征在于, 所述 对智能体的参数进行聚合处理, 包括利用智能体的参数和价值函数更新公式, 生成TD ‑ error。 8.一种基于强化学习的集装箱装卸智能化系统, 其特 征在于, 包括: 数据获取模块, 被 配置为, 获取智能体的初始状态、 参数以及分配任务; 强化学习模块, 被 配置为, 根据分配任务, 利用智能体强化学习模型 得出决策结果; 其中, 所述智能体通过强化学习模型, 根据分配目标得出 决策动作, 并将该决策动作及 对应状态特征进行经验暂存。 9.一种计算机可读存储介质, 其特征在于: 其中存储有多条指令, 所述指令适于由终端 设备的处理器加载并执行权利要求 1‑7中任一项 所述的一种基于强化学习的集装箱装卸智 能化方法。 10.一种终端设备, 其特征在于: 包括处理器和计算机可读存储介质, 处理器用于实现 各指令; 计算机可读存储介质用于存储多条指令, 所述指令适于由处理器加载并执行权利 要求1‑7中任一项所述的一种基于强化学习的集装箱装卸智能化方法。权 利 要 求 书 1/1 页 2 CN 114186712 A 2一种基于强化学习的集装箱装卸智能化方 法及系统 技术领域 [0001]本发明涉及 集装箱装卸智能化技术领域, 尤其涉及一种基于强化学习的集装箱装 卸智能化方法及系统。 背景技术 [0002]本部分的陈述仅仅是提供了与本发明相关的背景技术信息, 不必然构成在先技 术。 [0003]早期集装箱装卸问题的解决主要依赖于港口工作人员的经验, 需要港口工作人员 对泊位空闲状态、 装卸设备规格及空闲状态、 堆场空闲状态以及泊位规格等问题进行综合 考虑, 制定相关计划, 但是, 随着目前港口业务量的增加, 货物吞吐规模的扩大, 单独依靠港 口工作人员人工制定装卸及堆场计划已难以满足生产需要。 [0004]现有的诸多研究方法尚未实现场位的分配、 码头泊位的分配以及机械设施调度等 方面的全自动化规划调 度, 尚未将岸桥调 度优化、 堆场调 度优化、 集装箱装卸调 度优化紧密 结合起来。 同时, 强化学习作为一个热门领域, 尚未实际应用到港口行业的生产实际中。 因 此亟需一种基于强化学习的集装箱装卸智能化方法及系统。 发明内容 [0005]本发明为了解决上述问题, 提出了一种基于强化学习的集装箱装卸智能化方法及 系统, 本发明将集装箱装卸作业细化为多个子任务, 通过多智能体强化学习的方式实现自 动生成集装箱装卸作业计划, 最终 实现智能化。 [0006]根据一些实施例, 本发明采用如下技 术方案: [0007]一种基于强化学习的集装箱装卸智能化方法, 包括: [0008]获取集装箱 尺寸数据和装卸计划; [0009]获取多个智能体的初始状态、 参数以及分配任务; [0010]根据分配任务, 利用智能体强化学习模型 得出决策结果; [0011]其中, 所述智能体包括堆场智能体、 装卸设备智能体和泊位智能体, 所述利用智能 体强化学习模型得出决策结果, 包括对分配任务和智能体进行划分, 建立智能体强化学习 模型, 并设置每 个智能体在环境中的状态空间、 动作空间及奖励值。 [0012]进一步地, 所述智能体的初始状态包括泊位智能体的使用情况及泊位规格, 装卸 设备智能体的使用情况及规格、 种类, 堆场智能体的在场箱情况。 [0013]进一步地, 所述智能体根据分配 的任务及自身状态, 得到决策动作, 经过K步计算 后, 计算已存决策动作及状态特 征。 [0014]进一步地, 所述智能体将K步决策动作后将形成的状态特征、 决策动作和奖励值上 传至经验 池, 形成经验。 [0015]进一步地, 上传经验池后, 对智能体的参数进行聚合 处理, 并将聚合结果返回给智 能体进行参数 更新。说 明 书 1/6 页 3 CN 114186712 A 3

.PDF文档 专利 一种基于强化学习的集装箱装卸智能化方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的集装箱装卸智能化方法及系统 第 1 页 专利 一种基于强化学习的集装箱装卸智能化方法及系统 第 2 页 专利 一种基于强化学习的集装箱装卸智能化方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 18:59:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。