专利开放环境中行为演化的时空融合推理与终身认知学习方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211300756.9 (22)申请日 2022.10.24 (71)申请人复旦大学地址 200433 上海市杨浦区邯郸路2 20号申请人复旦大学义乌研究院 (72)发明人洪智铭　杨涛　吴晓峰　胡波　 (74)专利代理机构上海德昭知识产权代理有限公司 31204 专利代理师程宗德 (51)Int.Cl. G06K 9/62(2022.01) G06N 5/04(2006.01) B25J 11/00(2006.01) B25J 15/08(2006.01) (54)发明名称开放环境中行为演化的时空融合推理与终身认知学习方法 (57)摘要本发明提供一种开放环境中动作演化的时空融合推理与终身认知学习方法，根据历史认知经验与实时动作观测相结合来构造时空融合视角，判定是否发生环境状态转移；在响应周期内，微调推理出抽象的自由度与任务级策略，然后根据环境奖励回报校准响应的置信度，快速修正当前策略并适应环境。本发明构建了 “多目标全局感知、多维度决策部署 ”的可演绎终身学习架构，提高了智能机器人对未知场景的风险探索与认知的效率。本方案提供了一个新的范式，利用跨层级的最佳响应动作与条件随机场置信区间来促进自主学习的有效性，证明了在开放环境的随机稀疏奖励反馈下，构造不同任务间的快速迁移学习与自适应演化的动作机制。权利要求书4页说明书11页附图3页 CN 115526270 A 2022.12.27 CN 115526270 A 1.一种开放环境中行为演化的时空融合推理与终身认知学习方法，其特征在于，包括以下步骤：步骤S1，系统中的各个智能体通过其计算机视觉装置对开放环境进行实时性观测，基于实时性观测结果及半马尔可夫决策模型得到累积奖励动作库，并对该累积奖励动作库进行蒙特卡罗采样，得到观测 ‑动作历史序列；步骤S2，在预定时刻，所述智能体将所述实时性观测结果与所述观测 ‑动作历史序列进行回放得到历史动作 ‑观测经验序列，并基于该序列生成围绕所述开放环境中目标的时空融合视角的n步联合系统级策略，其中，所述历史动作 ‑观测经验序列包含有所述开放环境的条件随机场的置信度；步骤S3，各个所述智能体实时评估所述条件随机场的置信分布水平，并基于该置信分布水平调整其自主学习的自由度；步骤S4，各个所述智能体在其自主学习过程中，提取置信度及奖励高于预定值的动作模式，将该动作模式映射到所述开放环境中的任务，在所述智能体的联合空间内，基于所述条件随机场构建层级主导联合策略；步骤S5，重复步骤S1～S4，基于所述联合系统级策略和所述层级主导联合策略推理出不同层次间的内在动机驱动，并构造当前所述开放环境下所述系统的最优联合策略。 2.根据权利要求1所述的开放环境中行为演化的时空融合推理与终身认知学习方法，其特征在于：其中，步骤S1中，利用半马尔可夫决策过程进行建模，所述半马尔可夫决策模型的六元组表示为其中， S为环境状态空间； A为动作空间；为options， (I， π， β )依赖于历史序列Ω产生外部系统级策略μ：其中(Ω×A→[0， 1])(Ω →[0， 1])，初始集内部任务级策略π依赖于当前状态(S ×A→ [0， 1])(S →[0， 1])， β 是t＝Tterminal或时的终止条件； S×A→Δ(S)为状态转移概率矩阵； R：为即时奖励函数； γ∈[0， 1]为折扣因子。 3.根据权利要求2所述的开放环境中行为演化的时空融合推理与终身认知学习方法，其特征在于：其中，步骤S2包括以下子步骤：步骤S2‑1，在时刻t，将所述开放环境下的可观测状态分为三类，分别为基于概率推理的局部视角状态so、自身观测的分布式联合视角状态ssg、过去经验的高级表征的稳定回放视角状态ser；步骤S2‑2，提取0～ t时刻内的所述观测 ‑动作历史序列，记为：式中，是将O(s， a)中状态i →j的序列进行提取整合；权　利　要　求　书 1/4 页 2 CN 115526270 A 2步骤S2‑3，对0～t时刻的所述观测 ‑动作历史序列进行重放，在重放阶段时刻c，通过重放所述观测 ‑动作历史序列结合局部观测效用函数得到历史动作 ‑观测经验序列，记为：式中，置信度步骤S2‑4，建立马尔可夫蒙特卡罗链用于求得在n步内得到下一状态的条件随机场转移概率分布在其达到平稳分布后进行多次随机游走，从而生成围绕所述开放环境中目标的时空融合视角的n 步联合系统级策略： 4.根据权利要求3所述的开放环境中行为演化的时空融合推理与终身认知学习方法，其特征在于：其中，步骤S3包括以下子步骤：步骤S3‑1，基于实时观测的状态变化与所述联合系统级策略定义所述智能体自主学习的自由度：式中， ai→j为用于演化的可学习参数；步骤S3‑2，根据所述条件随机场的状态转移概率来定义所述观测 ‑动作历史序列的置信度b，使得每个动作的预期回报不受所述开放环境中噪声的影响，该置信度b通过不断实时观测所述开放环境进行迭代，与不同层次的最佳响应相匹配，构建非先验的完美贝叶斯条件；步骤S3‑3，以回归模型来校准所述联合系统级策略的置信区间，所述联合系统级策略的条件分布概率表示为：式中， TL是结合风险激活下的联合优势策略的转移概率分布而得出的置信比例因子，通过调节TL相应降低未知风险下的条件分布概率 5.根据权利要求4所述的开放环境中行为演化的时空融合推理与终身认知学习方法，权　利　要　求　书 2/4 页 3 CN 115526270 A 3

专利 开放环境中行为演化的时空融合推理与终身认知学习方法

专利开放环境中行为演化的时空融合推理与终身认知学习方法