全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111412653.7 (22)申请日 2021.11.25 (71)申请人 上海交通大 学 地址 200240 上海市闵行区东川路80 0号 (72)发明人 程若愚 严骏驰  (74)专利代理 机构 上海交达专利事务所 31201 代理人 王毓理 王锡麟 (51)Int.Cl. G06F 30/27(2020.01) G06F 30/327(2020.01) G06F 30/3947(2020.01) (54)发明名称 基于深度强化学习的优化芯片布局系统及 方法 (57)摘要 一种基于深度强化学习的优化芯片布局系 统及方法, 包括: 数据预处理模块、 策略网络模 块、 奖励预测模块和参数更新模块, 其中: 数据预 处理模块读取并解析pl、 net文件, 将其中的网表 图信息转换为智能体的初始 状态以及奖励函数; 策略网络模块通过卷积神经网络和图神经网络 分别得到分别包含粗细粒度的全局嵌入特征与 结点嵌入特征, 将两个网络分别得到的特征向量 融合, 最终预测出当前时刻行为, 即元件可能的 放置位置的概率分布; 奖励预测模块在网表图内 的所有元件都放置完毕后, 对布局结果进行总体 评价, 估计得到线长和拥塞程度指标反馈给智能 体; 参数更新模块根据从经验池中进行采样得到 的样本采用近端策略优化算法周期地更新神经 网络的参数, 实现更好的拟合效果。 权利要求书2页 说明书5页 附图3页 CN 114154412 A 2022.03.08 CN 114154412 A 1.一种基于深度强化学习的优化芯片布局系统, 其特征在于, 包括: 数据预处理模块、 策略网络模块、 奖励预测模块和参数更新模块, 其中: 数据预 处理模块读取并解析pl、 net文 件, 将其中的网表图信息转换为智能体的初始状态以及奖励函数; 策略网络模块通过卷积 神经网络和图神经网络 分别得到分别包含粗细粒度的全局嵌入特征与结点嵌入特征, 将两 个网络分别得到的特征向量融合, 最终预测出当前时刻行为, 即元件可能的放置位置的概 率分布; 奖励预测模块在网表图内的所有 元件都放置完 毕后, 对布局结果进行总体评价, 估 计得到线长和拥塞程度指标反馈给智能体; 参数更新模块根据从经验池中进 行采样得到的 样本采用近端策略优化 算法周期地更新神经网络的参数。 2.根据权利要求1所述的的优化芯片布局系统, 其特征是, 对输出的概率分布进行检验 并找到合 适的替代行为, 具体为: 1)观察当前时刻棋盘的放置情况, 用1表示已摆放元件 的格点, 得到大小为32*32的图 像; 通过双线性插值对其上采样, 最终输入84*84的图像给卷积神经网络, 得到图像的特征 向量; 2)将网表图抽取 出的图输入到图卷积网络进行处 理, 得到网表图的嵌入特 征; 3)将图像的特征向量与图的嵌入特征进行拼接, 经过全连接层后输出当前元件可能的 放置位置, 用长度为32* 32的向量表示; 4)检验其预测的放置位置是否有效, 即是否与之前放置的元件冲突, 当输出的位置已 被占用, 则以该位置为中心进行广 度优先搜索, 直到找到一个可用的放置位置 。 3.根据权利要求1所述的的优化芯片布局系统, 其特征是, 所述的奖励预测包括传统预 测算法和基于梯度的布局优化 算法; 所述的基于梯度的布局优化算法是指: 为了得到完整的布局结果, 同时更准确地预测 奖励值, 将基于梯度的布局优化 算法结合到强化学习框架中, 具体包括: a)智能体放置 完所有宏元件, 将布局结果 转换为标准的pl文件格式; b)运行基于梯度的布局优化算法读取生成的pl文件及对应的网表图信息, 迭代优化数 百轮, 得到标准元件的布局情况; c)根据完整的布局结果计算其奖励值, 更新选择动作的策略, 如果训练未结束回到步 骤1, 训练结束则算法终止 。 4.根据权利要求1所述的的优化芯片布局系统, 其特征是, 所述的近端策略优化算法是 指: 其中: rt为新策略与旧策略概率的 比值, 为t时刻的估计优势, 该算法很好地权衡了实现复杂度、 样本复杂度和参数设计复 杂度, 它尝试在每次迭代 时计算一次更新以最大化奖励函数, 在计算梯度时还确保了与先 前策略有相对较小的偏差 。 5.根据权利要求1所述的的优化芯片布局系统, 其特征是, 所述的数据预处理模块包 括: 输入单元、 解析单元以及输出单元, 其中: 输入 单元读取pl、 net格式文件, 得到处理的中 间结果(列表数据), 解析单元根据列表信息, 提取其中待布局的宏元件以及 对应的网表, 得 到智能体的初始状态以及奖励函数, 输出单元根据宏元件布局结果, 将结果写入对应的pl 格式文件, 得到布局输出。 6.根据权利要求1所述的的优化芯片布局系统, 其特征是, 所述的策略网络模块包括:权 利 要 求 书 1/2 页 2 CN 114154412 A 2卷积神经网络单元、 图神经网络单元以及 全连接层单元, 其中: 卷积神经网络单元根据全局 图像信息, 得到全局嵌入向量, 图神经网络单元根据网表图信息, 提取当前布局元件的节 点 嵌入特征, 全连接层单元根据全局嵌入向量以及节点嵌入信息, 进 行特征融合处理, 得到有 效布局位置的概 率分布。 7.根据权利要求1所述的的优化芯片布局系统, 其特征是, 所述的奖励预测模块包括: 传统预测单元以及基于梯度的布局优化单元, 其中: 传统预测单元根据网中元件布局坐标, 根据公式分别计算线长和布线拥塞这两种指标, 加权求和后得到该种布局的奖励值, 基于 梯度的布局优化单元根据宏元件布局情况, 将布局结果转换为标准的pl文件格式, 运行基 于梯度的布局优化 算法迭代优化数 百轮得到标准元件的布局结果以及对应的评价指标。 8.根据权利要求1所述的的优化芯片布局系统, 其特征是, 所述的参数更新模块包括: 损失计算单元以及参数更新单元, 其中: 损失计算单元根据奖励值计算新策略与旧策略概 率的比值以及估计优势, 参数更新单元根据损失函数更新策略网络参数, 并重新与环境交 互得到新的奖励。 9.根据权利要求1~8中任一所述系统 的基于深度强化学习的优化芯片布局方法, 其特 征在于, 包括: 步骤1)通过数据 预处理模块接收描述待布局电路中元件及网表图信 息的数据文件, 将 提取出的状态保存到计算机内存中, 供算法模块处 理; 步骤2)构建一个空白棋盘网格, 初始化结果列表, 选择一个待放置的宏元件; 步骤3)通过策略网络预测元件可能的放置位置, 并检验结果是否有效; 当所选位置已 被占用, 则搜索得到可用的放置位置, 同时选择 下一个待放置元件; 步骤4)当还有宏元件未被放置, 回到步骤3, 否则进入步骤5; 步骤5)当需要放置标准元件, 进入步骤6, 否则进入步骤7; 步骤6)运行基于梯度的布局优化算法读取结果列表中的宏元件位置, 经过迭代优化后 完成标准元件的放置; 步骤7)根据对应方式计算得到本次的奖励值, 适当更新选择智能体动作的策略, 当训 练未结束回到步骤2, 训练到 达设定的轮数则进入步骤8; 步骤8)训练完毕后, 就得到 了一个可以用于解决芯片布局问题的求 解器。权 利 要 求 书 2/2 页 3 CN 114154412 A 3

.PDF文档 专利 基于深度强化学习的优化芯片布局系统及方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的优化芯片布局系统及方法 第 1 页 专利 基于深度强化学习的优化芯片布局系统及方法 第 2 页 专利 基于深度强化学习的优化芯片布局系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:29:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。