专利基于深度强化学习的优化芯片布局系统及方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111412653.7 (22)申请日 2021.11.25 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人程若愚　严骏驰　 (74)专利代理机构上海交达专利事务所 31201 代理人王毓理　王锡麟 (51)Int.Cl. G06F 30/27(2020.01) G06F 30/327(2020.01) G06F 30/3947(2020.01) (54)发明名称基于深度强化学习的优化芯片布局系统及方法 (57)摘要一种基于深度强化学习的优化芯片布局系统及方法，包括：数据预处理模块、策略网络模块、奖励预测模块和参数更新模块，其中：数据预处理模块读取并解析pl、 net文件，将其中的网表图信息转换为智能体的初始状态以及奖励函数；策略网络模块通过卷积神经网络和图神经网络分别得到分别包含粗细粒度的全局嵌入特征与结点嵌入特征，将两个网络分别得到的特征向量融合，最终预测出当前时刻行为，即元件可能的放置位置的概率分布；奖励预测模块在网表图内的所有元件都放置完毕后，对布局结果进行总体评价，估计得到线长和拥塞程度指标反馈给智能体；参数更新模块根据从经验池中进行采样得到的样本采用近端策略优化算法周期地更新神经网络的参数，实现更好的拟合效果。权利要求书2页说明书5页附图3页 CN 114154412 A 2022.03.08 CN 114154412 A 1.一种基于深度强化学习的优化芯片布局系统，其特征在于，包括：数据预处理模块、策略网络模块、奖励预测模块和参数更新模块，其中：数据预处理模块读取并解析pl、 net文件，将其中的网表图信息转换为智能体的初始状态以及奖励函数；策略网络模块通过卷积神经网络和图神经网络分别得到分别包含粗细粒度的全局嵌入特征与结点嵌入特征，将两个网络分别得到的特征向量融合，最终预测出当前时刻行为，即元件可能的放置位置的概率分布；奖励预测模块在网表图内的所有元件都放置完毕后，对布局结果进行总体评价，估计得到线长和拥塞程度指标反馈给智能体；参数更新模块根据从经验池中进行采样得到的样本采用近端策略优化算法周期地更新神经网络的参数。 2.根据权利要求1所述的的优化芯片布局系统，其特征是，对输出的概率分布进行检验并找到合适的替代行为，具体为： 1)观察当前时刻棋盘的放置情况，用1表示已摆放元件的格点，得到大小为32*32的图像；通过双线性插值对其上采样，最终输入84*84的图像给卷积神经网络，得到图像的特征向量； 2)将网表图抽取出的图输入到图卷积网络进行处理，得到网表图的嵌入特征； 3)将图像的特征向量与图的嵌入特征进行拼接，经过全连接层后输出当前元件可能的放置位置，用长度为32* 32的向量表示； 4)检验其预测的放置位置是否有效，即是否与之前放置的元件冲突，当输出的位置已被占用，则以该位置为中心进行广度优先搜索，直到找到一个可用的放置位置。 3.根据权利要求1所述的的优化芯片布局系统，其特征是，所述的奖励预测包括传统预测算法和基于梯度的布局优化算法；所述的基于梯度的布局优化算法是指：为了得到完整的布局结果，同时更准确地预测奖励值，将基于梯度的布局优化算法结合到强化学习框架中，具体包括： a)智能体放置完所有宏元件，将布局结果转换为标准的pl文件格式； b)运行基于梯度的布局优化算法读取生成的pl文件及对应的网表图信息，迭代优化数百轮，得到标准元件的布局情况； c)根据完整的布局结果计算其奖励值，更新选择动作的策略，如果训练未结束回到步骤1，训练结束则算法终止。 4.根据权利要求1所述的的优化芯片布局系统，其特征是，所述的近端策略优化算法是指：其中： rt为新策略与旧策略概率的比值，为t时刻的估计优势，该算法很好地权衡了实现复杂度、样本复杂度和参数设计复杂度，它尝试在每次迭代时计算一次更新以最大化奖励函数，在计算梯度时还确保了与先前策略有相对较小的偏差。 5.根据权利要求1所述的的优化芯片布局系统，其特征是，所述的数据预处理模块包括：输入单元、解析单元以及输出单元，其中：输入单元读取pl、 net格式文件，得到处理的中间结果(列表数据)，解析单元根据列表信息，提取其中待布局的宏元件以及对应的网表，得到智能体的初始状态以及奖励函数，输出单元根据宏元件布局结果，将结果写入对应的pl 格式文件，得到布局输出。 6.根据权利要求1所述的的优化芯片布局系统，其特征是，所述的策略网络模块包括：权　利　要　求　书 1/2 页 2 CN 114154412 A 2卷积神经网络单元、图神经网络单元以及全连接层单元，其中：卷积神经网络单元根据全局图像信息，得到全局嵌入向量，图神经网络单元根据网表图信息，提取当前布局元件的节点嵌入特征，全连接层单元根据全局嵌入向量以及节点嵌入信息，进行特征融合处理，得到有效布局位置的概率分布。 7.根据权利要求1所述的的优化芯片布局系统，其特征是，所述的奖励预测模块包括：传统预测单元以及基于梯度的布局优化单元，其中：传统预测单元根据网中元件布局坐标，根据公式分别计算线长和布线拥塞这两种指标，加权求和后得到该种布局的奖励值，基于梯度的布局优化单元根据宏元件布局情况，将布局结果转换为标准的pl文件格式，运行基于梯度的布局优化算法迭代优化数百轮得到标准元件的布局结果以及对应的评价指标。 8.根据权利要求1所述的的优化芯片布局系统，其特征是，所述的参数更新模块包括：损失计算单元以及参数更新单元，其中：损失计算单元根据奖励值计算新策略与旧策略概率的比值以及估计优势，参数更新单元根据损失函数更新策略网络参数，并重新与环境交互得到新的奖励。 9.根据权利要求1～8中任一所述系统的基于深度强化学习的优化芯片布局方法，其特征在于，包括：步骤1)通过数据预处理模块接收描述待布局电路中元件及网表图信息的数据文件，将提取出的状态保存到计算机内存中，供算法模块处理；步骤2)构建一个空白棋盘网格，初始化结果列表，选择一个待放置的宏元件；步骤3)通过策略网络预测元件可能的放置位置，并检验结果是否有效；当所选位置已被占用，则搜索得到可用的放置位置，同时选择下一个待放置元件；步骤4)当还有宏元件未被放置，回到步骤3，否则进入步骤5；步骤5)当需要放置标准元件，进入步骤6，否则进入步骤7；步骤6)运行基于梯度的布局优化算法读取结果列表中的宏元件位置，经过迭代优化后完成标准元件的放置；步骤7)根据对应方式计算得到本次的奖励值，适当更新选择智能体动作的策略，当训练未结束回到步骤2，训练到达设定的轮数则进入步骤8；步骤8)训练完毕后，就得到了一个可以用于解决芯片布局问题的求解器。权　利　要　求　书 2/2 页 3 CN 114154412 A 3

专利 基于深度强化学习的优化芯片布局系统及方法

专利基于深度强化学习的优化芯片布局系统及方法