说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210932480.X (22)申请日 2022.08.04 (71)申请人 北京奕斯伟计算 技术股份有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十街18号院3号楼1层101 室 (72)发明人 周良  (74)专利代理 机构 北京鼎佳达知识产权代理事 务所(普通 合伙) 11348 专利代理师 刘铁鸣 刘铁生 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/48(2006.01) G06F 11/30(2006.01) G06F 11/34(2006.01) (54)发明名称 一种基于模型服务化的模型实例的数量控 制方法及装置 (57)摘要 本申请公开了一种基于模型服务化的模型 实例的数量控制方法及装置, 涉及模 型服务化处 理技术领域, 根据模型对应的各个模 型实例的当 前服务状态, 能够自适应地启动调整模型对应的 模型实例的数量, 有助于从整体上大大提高推理 服务器的处理能力。 本申请的主要技术方案为: 接收向目标模 型发起的至少一个推理请求; 确定 所述目标模 型对应的至少一个模 型实例; 利用所 述目标模型对应的所述模型实例响应所述推理 请求; 通过监控在响应所述推理请求的过程中所 述目标模型对应的各个所述模型实例的当前服 务状态, 自适应地启动调整所述目标模型对应的 模型实例的数量。 本申请应用于在推理服务器处 理推理请求的过程中自适应调整各个模型对应 的模型实例的数量。 权利要求书2页 说明书11页 附图5页 CN 115309551 A 2022.11.08 CN 115309551 A 1.一种基于模型服 务化的模型实例的数量控制方法, 其特 征在于, 所述方法包括: 接收向目标模型发起的至少一个 推理请求; 确定所述目标模型对应的至少一个模型实例; 利用所述目标模型对应的所述模型实例响应所述推理请求; 通过监控在响应所述推理请求的过程中所述目标模型对应的各个所述模型实例的当 前服务状态, 自适应地启动调整所述目标模型对应的模型实例的数量。 2.根据权利要求1所述的方法, 其特征在于, 所述通过监控在响应所述推理请求的过程 中所述目标模型对应的各个所述模型实例的当前服务状态, 自适应地启动调整所述目标模 型对应的模型实例的数量, 包括: 对于所述目标模型, 基于监控到的各个所述模型实例响应所述推理请求的监控结果, 计算所述推理请求在单位时间内的平均等待时延; 基于所述平均等待时延和预设时延阈值之间比较结果, 确定是否调 整增加所述目标模 型对应的模型实例的数量。 3.根据权利要求2所述的方法, 其特征在于, 若确定调 整增加所述目标模型对应的模型 实例的数量, 则所述方法还 包括: 模拟增加模型实例的数量; 重新模拟计算所述推理请求在单位时间内的模拟平均等待时延; 若所述模拟平均等待时延小于所述预设时延阈值 时, 则获取所述模拟平均等待时延对 应当前模拟增 加的模型实例的数量, 作为目标模拟新增模型实例的数量; 根据所述目标模拟新增模型实例的数量, 调整增加所述目标模型对应的模型实例的数 量。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述目标模拟新增模型实例的数 量, 调整增 加所述目标模型对应的模型实例的数量, 包括: 根据所述目标模拟新增模型实例的数量和所述目标模型对应的当前模型实例的数量, 累加得到所述目标模型对应的预估总模型实例的数量; 判断所述预估总模型实例的数量是否大于所述目标模型对应的模型实例的预设数量 上限值; 基于所述预估总 模型实例的数量和所述预设数量上限值之间比较结果, 控制发起启动 新增所述目标模型对应的模型实例的处 理流程。 5.根据权利要求1所述的方法, 其特征在于, 所述通过监控在响应所述推理请求的过程 中所述目标模型对应的各个所述模型实例的当前服务状态, 自适应地启动调整所述目标模 型对应的模型实例的数量, 包括: 在利用所述目标模型对应的所述模型实例响应所述推理请求的过程中, 查找 处于空闲 状态的模型实例; 基于所述空闲状态的模型实例对应的空闲时长和预设时长阈值之间比较结果, 确定是 否控制发起停止所述空 闲状态的模型实例的处 理流程。 6.根据权利要求1至 5中任一项所述的方法, 其特 征在于, 所述方法还 包括: 根据当前系统时间, 判断是否 到达检测周期; 若是, 则检测各个模型对应的模型实例是否为空 闲状态;权 利 要 求 书 1/2 页 2 CN 115309551 A 2若检测到存在空闲状态的模型实例, 则将所述空闲状态的模型实例, 作为待调整的模 型实例; 基于统计所述待调整的模型实例在相邻历史检测周期内处于空闲状态的次数与预设 次数阈值之间比较结果, 确定是否控制发起停止所述待调整的模型实例的处 理流程。 7.根据权利要求6所述的方法, 其特征在于, 在所述接收向目标模型发起的至少一个推 理请求之前, 所述方法还 包括: 向推理服 务器内加载 各个模型; 为每个所述模型启动一个模型实例, 作为向各个所述模型配置模型实例对应初始数 量, 以用于基于所述初始数量的模型实例响应 推理请求。 8.一种基于模型服 务化的模型实例的数量控制装置, 其特 征在于, 所述装置包括: 接收单元, 用于接收向目标模型发起的至少一个 推理请求; 确定单元, 用于确定所述目标模型对应的至少一个模型实例; 响应单元, 用于利用所述目标模型对应的所述模型实例响应所述推理请求; 调整单元, 用于通过监控在响应所述推理请求的过程中所述目标模型对应的各个所述 模型实例的当前服 务状态, 自适应地启动调整所述目标模型对应的模型实例的数量。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求1 ‑7中任一项所述的基于模型服务 化的模型实例的数量控制方法。 10.一种电子设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在所 述处理器上运行 的计算机程序, 所述处理器执行所述计算机程序时实现如权利要求1 ‑7中 任一项所述的基于模型服 务化的模型实例的数量控制方法。权 利 要 求 书 2/2 页 3 CN 115309551 A 3

.PDF文档 专利 一种基于模型服务化的模型实例的数量控制方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于模型服务化的模型实例的数量控制方法及装置 第 1 页 专利 一种基于模型服务化的模型实例的数量控制方法及装置 第 2 页 专利 一种基于模型服务化的模型实例的数量控制方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:08:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。