全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111333491.8 (22)申请日 2021.11.11 (71)申请人 西安工业大 学 地址 710000 陕西省西安市新城区金花北 路4号 (72)发明人 曹子建 贾浩文 傅妍芳 容晓峰 杜志强 王振雨 李骁 李建 (74)专利代理 机构 西安嘉思特知识产权代理事 务所(普通 合伙) 6123 0 代理人 王萌 (51)Int.Cl. G06N 3/12(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于差分演化的智能体训练方法 (57)摘要 本发明涉及一种基于差分演化的智能体训 练方法, 包括: 随机初始化Q表参数, 得到若干Q 表, 若干Q表构成初始演化种群, 其中, 一个Q表作 为种群中的一个个体; 对初始演化种群进行差分 演化操作, 得到新一代Q表种群, 并将新一代Q表 种群作为下一代的初始演化种群重复差分演化 操作, 直至达到预设的演化条件, 得到最终Q表种 群; 利用预设的适应度函数对最终Q表种群中每 个个体进行评价, 输出最优个体; 对最优个体进 行强化学习训练, 得到智 能体。 本发明的智 能体 训练方法, 首先, 采用演化算法得到最优Q表, 然 后, 基于该最优Q表进行 强化学习训练, 进而在智 能体训练过程中, 加快了收敛速度, 减少了训练 所需的时间资源, 提高了智能体训练的即时性。 权利要求书2页 说明书6页 附图2页 CN 114065932 A 2022.02.18 CN 114065932 A 1.一种基于 差分演化的智能体训练方法, 其特 征在于, 包括: 随机初始化Q表参数, 得到若干Q表, 若干Q表构成初始演化种群, 其中, 一个Q表作为种 群中的一个 个体; 对所述初始演化种群进行差分演化操作, 得到新一代Q表种群, 并将新一代Q表种群作 为下一代的初始演化种群重复差分演化操作, 直至达到预设的演化条件, 得到最终Q表种 群; 利用预设的适应度函数对所述 最终Q表种群中每 个个体进行评价, 输出最优个 体; 对所述最优个体进行强化学习训练, 得到智能体。 2.根据权利要求1所述的基于差分演化的智能体训练方法, 其特征在于, 所述Q表参数 包括状态参数和动作参数。 3.根据权利要求1所述的基于差分演化的智能体训练方法, 其特征在于, 所述差分演化 操作, 包括: 利用变异算子对所述初始种群进行变异处 理, 得到变异种群; 利用二项式交叉 方式对所述变异种群进行交叉操作, 得到交叉种群; 比较所述交叉种群中每个个体的适应度值与其初始演化种群中相应的个体的适应度 值, 根据比较结果选择 更优秀的个 体, 组成所述 新一代Q表种群。 4.根据权利要求1所述的基于差分演化的智能体训练方法, 其特征在于, 按照下式对所 述初始演化种群中每 个个体进行变异处 理, 得到变异种群v, 其中, g表示种群的演化代数, i表示种群中的个体索引值, i=1,2,...,NP, NP表示种群 中个体的数目, r1,r2, r3分别表示从NP个个体中随机采样得到的索引值, 并且r1≠r2≠r3, F 表示缩放因子, F∈[0,1], 表示在演化第g代种群x中第r1个个体, Vig表示在演化第g代变 异种群v中第i个 个体。 5.根据权利要求4所述的基于差分演化的智能体训练方法, 其特征在于, 按照下式对所 述变异种群中每 个个体进行交叉操作, 得到交叉种群u, 其中, CR表示交叉概率, CR∈[0,1], rand为[0,1]之间的随机数, jrand为[0,D]之间的 随机整数, D表示问题的维数, 表示在演化第g代交叉种群u中第i个个体 的第j维, 表 示在演化第g代种群x中第i个个体的第j维, 表示在演化第g代变异种群v中第i个个体的 第j维。 6.根据权利要求5所述的基于差分演化的智能体训练方法, 其特征在于, 按照如下选择 方式, 选择 更优秀的个 体, 组成所述 新一代Q表种群, 其中, f表示适应度函数, 表示在差分演化进行到第g代时, 其初始演化种群x中第权 利 要 求 书 1/2 页 2 CN 114065932 A 2i个个体的适应度值, 表示在差分演化进行到第g代时, 交叉种群u中第i个个体的适 应度值, 表示新一代Q表种群中第i个 个体。 7.根据权利要求1所述的基于差分演化的智能体训练方法, 其特征在于, 所述适应度函 数为基于指定步长下目标状态命中次数: 其中, i∈{1,2,. ..,NP}, 表示第t代的第i个 个体的适应度值。权 利 要 求 书 2/2 页 3 CN 114065932 A 3
专利 一种基于差分演化的智能体训练方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 18:59:21
上传分享
举报
下载
原文档
(721.2 KB)
分享
友情链接
ISO IEC TS 17021-7 2014 Conformity assessment — Requirements for bodies providin.pdf
ISO 13640 2018 Buildings and civil engineering works Sealants Specifications for test substrates.pdf
ISO 5-4 2009 Photography and graphic technology — Density measurements — Part 4 Geometric conditions for reflection density.pdf
ISO TR 20520 2018 Traditional Chinese medicine — Infection control for acupuncture t.pdf
ISO 6898 1984 Open front mechanical power presses — Capacity ratings and dimensions.pdf
ISO 1839:1980 Tea - Sampling.pdf
ISO IEC 14496-33 2019 Information technology — Coding of audio-visual objects — Part 33 Internet video coding.pdf
ISO 8733 1997 Parallel pins with internal thread of unhardened steel and austenitic stainless steel.pdf
ISO 17266 2018 Cinematography — Multichannel analogue and digital photographic sound and control records on 35 mm motion-picture prints and negatives, and digital sound-control records on.pdf
ISO IEC 7816-8 2021 Identification cards — Integrated circuit cards — Part 8 Commands and mechanisms for security operations.pdf
GB-T 28772-2012 内燃机油分类.pdf
GB-T 17626.1-2006 电磁兼容 试验和测量技术 抗扰度试验总论.pdf
GB-T 20703-2006 船舶电气装置 取暖和烹调电器.pdf
GB-T 39352-2020 空间数据与信息传输系统 邻近空间链路协议 数据链路层.pdf
GB-T 27025-2019 检测和校准实验室能力的通用要求.pdf
GB 11555-2009 汽车风窗玻璃除霜和除雾系统的性能和试验方法.pdf
GB-T 32424-2015 系统与软件工程 用户文档的设计者和开发者要求.pdf
GB-T 23602-2009 钛及钛合金表面除鳞和清洁方法.pdf
GB-T 2793-1995 胶粘剂不挥发物含量的测定.pdf
GB-T 40374-2021 硬质合金化学分析方法 铅量和镉量的测定 火焰原子吸收光谱法和电感耦合等离子体原子发射光谱法.pdf
1
/
3
11
评价文档
赞助2元 点击下载(721.2 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。