全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111303747.0 (22)申请日 2021.11.05 (71)申请人 沈阳飞机设计 研究所扬州协同创新 研究院有限公司 地址 225000 江苏省扬州市广陵新城江苏 信息服务产业基地内28号楼B栋 (72)发明人 叶超 朴海音 陈永红 陶晓洋 樊松源 孙阳 郝一行 王汉 于津 韩玥 杨晟琦 彭宣淇 (74)专利代理 机构 大连理工大 学专利中心 21200 代理人 梅洪玉 (51)Int.Cl. G06F 9/455(2006.01) G06F 9/50(2006.01)G06N 20/00(2019.01) (54)发明名称 一种基于Kubernetes容器集群的分布式强 化学习系统设计方法 (57)摘要 本发明公开一种基于Kubernetes容器集群 的分布式强化学习系统设计方法, 属于大规模分 布式强化学习系统设计领域通过使 用了 Kubernetes系统构建容器集群, 将强化学习系统 的功能模块抽象成一个个服务容器, 将模型训练 和采样部分构建成一个强化学习模 型容器集群, 并且通过Manager负责整个训练过程中任务分 发、 资源管理调度。 本发明可以提高大规模强化 学习的资源利用率, 减少人工干预, 加快大规模 强化学习部署和训练。 权利要求书2页 说明书4页 附图4页 CN 114020413 A 2022.02.08 CN 114020413 A 1.一种基于Kubernetes容器集群的分布式强化学习系统设计方法, 其特征在于, 具体 如下: 1)基于Kubernetes构建容器集群, 包括在CPU机器和GPU机器安装Kubernetes, 并将这 些机器全部加入到同一个容器集群中; 2)将强化学习采样和训练代码制作成Docker镜像, 根据需求在容器集群中启动多个容 器实例; 3)在容器集群 中启动调度器管理程序, 负责任务分发、 资源调度、 参数调优和模型保存 工作; 具体的, 使用基于采样器 ‑学习器架构的分布式强化学习训练, 包括以下几种角色的进 程, 这些进程均以容器的形式运行在Kubernetes容器集群中; 采样器: 从参数服务器拿到最新的网络参数, 使用多个CPU并行采样, 产生一系列观测 数据, 观测数据放入经验缓冲池中; 学习器: 从采样器 拿到观察数据, 使用梯度下降更新神经网络模型; 参数服务器: 负责保存最 新的网络参数; 经验缓冲池: 负责保存 采样器产生的样本; 调度器: 负责 分发任务和资源管理; 用户只关心需要多少资源, 不需要关心资源运行在 哪一台机器上, 编写配置脚本, 通过 用户接口向调度器发送指令, 调度器再去分发任务和分配资源; 整个分布式强化学习流程 分为以下几步: A)采样; 用户编写完采样脚本, 将脚本制作成Docker镜像, 通过调度器将采样任务以容 器的形式运行在Kubernetes容器集群中, 当一个采样进程意外结束时, Kubernetes容器集 群根据用户的设定 自动的重启这个采样进程; 当采样进程的负载超过用户设定的阈值时, Kubernetes容器集群对该进程进行扩容; 采样任务主要流程包括: 启动多个CPU进程, 形成一个CPU Group负责与强化学习环境 进行互动, 产生数据; 创建经验缓冲池, 存放采样得到的数据; 采样进程定时去查询参数服 务器中参数是否更新, 当网络参数更新后, 采样进程去获取最新的网络参数, 并开始新的一 轮采样任务; B)训练; 用户编写完训练脚本, 将脚本制作成Docker镜像, 通过调度器将训练任务以容 器的形式运行在Kubernetes容器集群中; 和采样任务一样, 训练进程意外结束时, Kubernetes容器集群根据用户的设定自动的重启这个训练进程; 当训练进程的负载超过用 户设定的阈值时, Kubernetes容器集群对该进程进行扩容; 训练任务主要流程包括: 启动多个GPU进程, 形成一个GPU Group利用梯度下降算法去 更新网络参数, 一轮训练结束后, 训练进程会将更新后的网络参数放置到参数服务器上供 采样进程使用; 训练进程会监控 经验缓冲池容量的大小, 如果样本数满足训练要求, 就会开 始训练任务。 2.根据权利 要求1所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方 法, 其特征在于, 采样器的实现方式是: 首先通过深度强化学习算法DQN训练产生一个采样 的智能体, 其次利用该智能体不断的与强化学习环境进行交互产生样本存入到经验池中, 最后学习器利用采样 器得到的训练数据更新智能体的网络参数, 采样器使用新的网络参数权 利 要 求 书 1/2 页 2 CN 114020413 A 2继续采样如此循环往复; 采集的数据样本的数据结构是四元组信息(s, a, r, s_), 其中, s为当前输入的状态信 息、 a为选择的动作、 s_为执行动作后的下一个状态信息、 r为环境反馈的奖励, 四元组信息 (s, a, r, s_)存储到初始好容量的经验缓冲池中, 即采集足够的训练样本集, 训练样本的个 数是一个超参数。 3.根据权利 要求2所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方 法, 其特征在于, 深度强化学习算法DQN中Q函数通过一个深度强化神经网络来拟合, 深度强 化神经网络的结构包括以下几部分: 特征表示层: 卷积神经网络CNN对实验环境图像进行特征学习, 产生图像每个像素上对 应的高层信息特征, 该网络通过每一层的卷积操作和池化这些非线性的变换学习不同尺度 的视觉表达, 使得网络可以捕获到 丰富的高层信息; 价值估计层: 输入为特征表示层的输出, 内部的结构为一个全连接层, 输出为一个标 量, 代表智能体在这个状态下执行该动作可以获得累计 收益的期望; 当实现深度强化学习 算法DQN的模型训练好后, 将代码打包成docker镜像上传到容器集群中。 4.根据权利 要求1所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方 法, 其特征在于, 所述的经验缓冲池: 在容器的任意一个节点启动redis数据库, 采样器将采 集的数据四元组信息(s, a, r, s_)存入到数据库中的特定字段data, 当采购足够的数据时, 把redis数据库中表明数据是否采购的标志flag置为1,否则默认 为0; 学习器会监控flag字 段, 当flag字段为1时, 会去redis数据库data字段取得数据用于智能体参数得更新, 并且把 flag字段置换为0, 清空data字段。 5.根据权利 要求1所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方 法, 其特征在于, 学习器: 利用采样器产生的数据, 利用梯度下降算法更新智能体神经网络 参数; 学习器使用的深度神经网络结构和采样 器是完全一样的, 只是网络的参数不同; 当学 习器的实现代码编写好后需要打包成docker镜像上传到容器集群中。权 利 要 求 书 2/2 页 3 CN 114020413 A 3
专利 一种基于Kubernetes容器集群的分布式强化学习系统设计方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 18:59:02
上传分享
举报
下载
原文档
(559.1 KB)
分享
友情链接
ISO IEC TS 17021-7 2014 Conformity assessment — Requirements for bodies providin.pdf
ISO 13640 2018 Buildings and civil engineering works Sealants Specifications for test substrates.pdf
ISO 5-4 2009 Photography and graphic technology — Density measurements — Part 4 Geometric conditions for reflection density.pdf
ISO TR 20520 2018 Traditional Chinese medicine — Infection control for acupuncture t.pdf
ISO 6898 1984 Open front mechanical power presses — Capacity ratings and dimensions.pdf
ISO 1839:1980 Tea - Sampling.pdf
ISO IEC 14496-33 2019 Information technology — Coding of audio-visual objects — Part 33 Internet video coding.pdf
ISO 8733 1997 Parallel pins with internal thread of unhardened steel and austenitic stainless steel.pdf
ISO 17266 2018 Cinematography — Multichannel analogue and digital photographic sound and control records on 35 mm motion-picture prints and negatives, and digital sound-control records on.pdf
ISO IEC 7816-8 2021 Identification cards — Integrated circuit cards — Part 8 Commands and mechanisms for security operations.pdf
GB-T 28772-2012 内燃机油分类.pdf
GB-T 17626.1-2006 电磁兼容 试验和测量技术 抗扰度试验总论.pdf
GB-T 20703-2006 船舶电气装置 取暖和烹调电器.pdf
GB-T 39352-2020 空间数据与信息传输系统 邻近空间链路协议 数据链路层.pdf
GB-T 27025-2019 检测和校准实验室能力的通用要求.pdf
GB 11555-2009 汽车风窗玻璃除霜和除雾系统的性能和试验方法.pdf
GB-T 32424-2015 系统与软件工程 用户文档的设计者和开发者要求.pdf
GB-T 23602-2009 钛及钛合金表面除鳞和清洁方法.pdf
GB-T 2793-1995 胶粘剂不挥发物含量的测定.pdf
GB-T 40374-2021 硬质合金化学分析方法 铅量和镉量的测定 火焰原子吸收光谱法和电感耦合等离子体原子发射光谱法.pdf
1
/
3
11
评价文档
赞助2元 点击下载(559.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。