全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211300756.9 (22)申请日 2022.10.24 (71)申请人 复旦大学 地址 200433 上海市杨 浦区邯郸路2 20号 申请人 复旦大学义乌研究院 (72)发明人 洪智铭 杨涛 吴晓峰 胡波  (74)专利代理 机构 上海德昭知识产权代理有限 公司 31204 专利代理师 程宗德 (51)Int.Cl. G06K 9/62(2022.01) G06N 5/04(2006.01) B25J 11/00(2006.01) B25J 15/08(2006.01) (54)发明名称 开放环境中行为演化的时空融合推理与终 身认知学习方法 (57)摘要 本发明提供一种开放环境中动作演化的时 空融合推理与终身认知学习方法, 根据历史认知 经验与实时动作观测相结合来构造时空融合视 角, 判定是否发生环境状态转移; 在响应周期内, 微调推理出抽象的自由度与任务级策略, 然后根 据环境奖励回报校准响应的置信度, 快速修正当 前策略并适应环境。 本发明构建了 “多目标全局 感知、 多维度决策部署 ”的可演绎终身学习架构, 提高了智能机器人对未知场景的风险探索与认 知的效率。 本方案提供了一个新的范式, 利用跨 层级的最佳响应动作与条件随机场置信区间来 促进自主学习的有效性, 证明了在开放环境的随 机稀疏奖励反馈下, 构造不同任务间的快速迁移 学习与自适应演化的动作机制。 权利要求书4页 说明书11页 附图3页 CN 115526270 A 2022.12.27 CN 115526270 A 1.一种开放环境中行为演化的时空融合推理与终身认知学习方法, 其特征在于, 包括 以下步骤: 步骤S1, 系统中的各个智能体通过其计算机视觉装置对开放环境进行实时性观测, 基 于实时性观测结果及半马尔可夫决策模型得到累积奖励动作库, 并对该累积奖励动作库进 行蒙特卡罗采样, 得到观测 ‑动作历史序列; 步骤S2, 在预定时刻, 所述智能体将所述实时性观测结果与所述观测 ‑动作历史序列进 行回放得到历史动作 ‑观测经验序列, 并基于该序列生成围绕所述开放环境中目标 的时空 融合视角的n步联合系统级策略, 其中, 所述历史动作 ‑观测经验序列包含有所述开放环境 的条件随机场的置信度; 步骤S3, 各个所述智能体实时评估所述条件随机场的置信分布水平, 并基于该置信分 布水平调整其自主学习的自由度; 步骤S4, 各个所述智能体在其自主学习过程中, 提取置信度及奖励高于预定值的动作 模式, 将该动作模式映射到所述开放环境中的任务, 在所述智能体的联合空间内, 基于所述 条件随机场构建层级 主导联合策略; 步骤S5, 重复步骤S1~S4, 基于所述联合系 统级策略和所述层级主导联合策略推理出 不同层次间的内在动机驱动, 并构造当前 所述开放环境下 所述系统的最优联合策略。 2.根据权利要求1所述的开放环境中行为演化的时空融合推理与终身认知学习方法, 其特征在于: 其中, 步骤S1中, 利用半马尔可夫决策过程进行建模, 所述半马尔可夫决策模型的六元 组表示为 其中, S为环境状态空间; A为动作空间; 为options, (I, π, β )依 赖于历史序列Ω产生外部系统级策略μ: 其 中(Ω×A→[0, 1])(Ω →[0, 1]), 初始集 内部任务级策 略π依赖于当前状态(S ×A→ [0, 1])(S →[0, 1]), β 是t=Tterminal或 时的终止条件; S×A→Δ(S)为状态转移概 率矩阵; R: 为即时奖励函数; γ∈[0, 1]为 折扣因子 。 3.根据权利要求2所述的开放环境中行为演化的时空融合推理与终身认知学习方法, 其特征在于: 其中, 步骤S2包括以下子步骤: 步骤S2‑1, 在时刻t, 将所述开放环境下的可观测状态分为三类, 分别为基于概率推理 的局部视角状态so、 自身观测的分布式联合视角状态ssg、 过去经验的高级表征的稳定回放 视角状态ser; 步骤S2‑2, 提取0~ t时刻内的所述观测 ‑动作历史序列, 记为: 式中, 是将O(s, a)中状态i →j的序列进行提取整合;权 利 要 求 书 1/4 页 2 CN 115526270 A 2步骤S2‑3, 对0~t时刻的所述观测 ‑动作历史序列进行重放, 在重放阶段时刻c, 通过重放 所述观测 ‑动作历史序列结合局部观测效用函数 得到历史动作 ‑观测经验序列, 记为: 式中, 置信度 步骤S2‑4, 建立马尔可夫蒙特卡罗 链用于求得在n步内得到下一状态的条件随机场转 移概率分布 在其达到平稳分布后进行多次随机游走, 从而生成围绕所述开 放环境中目标的时空融合视角的n 步联合系统级策略: 4.根据权利要求3所述的开放环境中行为演化的时空融合推理与终身认知学习方法, 其特征在于: 其中, 步骤S3包括以下子步骤: 步骤S3‑1, 基于实时观测的状态变化 与所述联合系统级策略 定义所述智能体自 主学习的自由度: 式中, ai→j为用于演化的可 学习参数; 步骤S3‑2, 根据所述条件随机场的状态转移概率来定义所述观测 ‑动作历史序列的置 信度b, 使得每个动作的预期回报不受所述开放环境中噪声的影响, 该置信度b通过不断实 时观测所述开放环境进行迭代, 与不同层次的最佳响应相匹配, 构建非先验的完美贝叶斯 条件; 步骤S3‑3, 以回归模型来校准所述联合系统级策略的置信区间, 所述联合系统级策略 的条件分布概 率 表示为: 式中, TL是结合风险激活下的联合优势策略的转移概率 分布而得出的置信比例因子, 通 过调节TL相应降低未知风险下 的条件分布概 率 5.根据权利要求4所述的开放环境中行为演化的时空融合推理与终身认知学习方法,权 利 要 求 书 2/4 页 3 CN 115526270 A 3

.PDF文档 专利 开放环境中行为演化的时空融合推理与终身认知学习方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 开放环境中行为演化的时空融合推理与终身认知学习方法 第 1 页 专利 开放环境中行为演化的时空融合推理与终身认知学习方法 第 2 页 专利 开放环境中行为演化的时空融合推理与终身认知学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:43:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。