全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111332051.0 (22)申请日 2021.11.11 (71)申请人 杭州海康威视数字技 术股份有限公 司 地址 310051 浙江省杭州市滨江区阡 陌路 555号 (72)发明人 郭峰  (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 代理人 孙翠贤 高莺然 (51)Int.Cl. G06F 9/54(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种数据处 理系统及模型训练方法 (57)摘要 本发明实施例提供了一种数据处理系统及 模型训练方法, 涉及大数据处理技术领域。 系统 包括至少一个任务节点, 每个任务节点包括: 至 少一个数据计算子节点、 至少一个模 型训练子节 点和共享内存; 各个数据计算子节 点是实时数据 计算系统中的子节点, 各个模型训练子节点是模 型训练系统中的子节点; 各个数据计算子节点, 用于对获取到的第一待处理实时数据执行指定 处理操作, 得到第一处理结果, 并将第一处理结 果存储到共享内存; 各个模型训练子节点, 用于 从共享内存读取第一处理结果, 利用第一处理结 果进行模型训练, 得到训练完成的目标模型。 与 现有技术相比, 应用本发明实施例提供的方案, 可以提高实时数据的处 理结果的时效性。 权利要求书3页 说明书13页 附图4页 CN 114064312 A 2022.02.18 CN 114064312 A 1.一种数据处理系统, 其特征在于, 所述系统包括至少一个任务节点, 每个任务节点包 括: 至少一个数据计算子节点、 至少一个模型训练子节点和共享内存; 其中, 各个数据计算 子节点是实时数据计算系统中的子节点, 各个模型训练子节点是模型训练系统中的子节 点; 各个数据计算子节点, 用于对获取到的第一待处理实时数据执行指定处理操作, 得到 第一处理结果, 并将所述第一处 理结果存 储到所述共享内存; 各个模型训练子节点, 用于从所述共享内存读取所述第一处理结果, 并利用所述第一 处理结果进行模型训练, 得到训练完成的目标模型。 2.根据权利要求1所述的系统, 其特 征在于, 各个模型训练子节点, 还用于将所述目标模型存 储到所述共享内存; 各个数据计算子节点, 还用于从所述共享内存获取所述目标模型, 并利用所述目标模 型对获取到的第二待处理实时数据进行处理, 得到第二处理结果, 并将所述第二处理结果 存储到所述共享内存。 3.根据权利要求1所述的系统, 其特征在于, 每个任务节点设置有共享内存管理服务; 各个数据计算子节点还用于: 将所述第一处 理结果的数据信息注 册到所述共享内存管理服 务中; 获取所述数据信 息在所述共享内存管理服务中的第 一引用地址, 并将所述第 一引用地 址发送到各个模型训练子节点; 其中, 所述数据信 息包括: 该数据计算子节点的节点标识、 所述第一处理结果在所述共 享内存中的存 储地址和所述第一处 理结果对应的变量 值; 各个模型训练子节点从所述共享内存读取 所述第一处 理结果, 包括: 各个模型训练子节点按照所接收到的第 一引用地址, 从所述共享内存管理服务中读取 所述数据信息, 并按照所述数据信息, 从所述共享内存读取 所述第一处 理结果; 各个数据计算子节点将所述第一处 理结果存 储到所述共享内存, 包括: 各个数据计算子节点按照第一内存协议, 将所述第一处理结果存储到所述共享内存; 其中, 所述数据信息包括: 所述第一内存协议的协议标识。 4.根据权利要求2所述的系统, 其特征在于, 每个任务节点设置有共享内存管理服务; 各个模型训练子节点还用于: 将所述目标模型的模型信息注 册到所述共享内存管理服 务中; 获取所述模型信 息在所述共享内存管理服务中的第 二引用地址, 并将所述第 二引用地 址发送到各个数据计算子节点; 其中, 所述模型信 息包括: 该模型训练子节点的节点标识、 所述目标模型在所述共享内 存中的存 储地址和所述目标模型对应的变量 值; 各个数据计算子节点从所述共享内存获取 所述目标模型, 包括: 各个数据计算子节点按照所接收到的第 二引用地址, 从所述共享内存管理服务中读取 所述模型信息, 并按照所述模型信息, 从所述共享内存读取 所述目标模型; 各个模型训练子节点将所述目标模型存 储到所述共享内存, 包括: 各个模型训练子节点按照第 二内存协议, 将所述目标模型存储到所述共享内存; 其中, 所述模型信息包括: 所述第二内存协议的协议标识。权 利 要 求 书 1/3 页 2 CN 114064312 A 25.根据权利要求1或2所述的系统, 其特征在于, 所述实时数据计算系统为: 分布式实时 数据计算系统; 所述模型训练系统为: 分布式模型训练系统; 每个任务节点设置有状态管 理 服务, 各个数据处 理子节点还用于: 从至少一个数据源的消息队列中获取 所述第一待处 理实时数据; 按照预设周期, 在各个消息队列中插入指定标识; 其中, 所述指定标识包括: 该消息队 列的分区信息和当前 所读取的数据在所述消息队列中的偏移地址; 在所述状态管理服务中, 记录基于各个指定标识确定的各个消息队列对应的数据状 态; 其中, 每个消息队列对应的数据状态用于表征: 每个数据计算节点从该消息队列中所获 取的数据在该消息队列中的偏移地址 。 6.根据权利要求5所述的系统, 其特征在于, 所述数据源的数量为多个; 各个数据处理 子节点在所述对获取到的第一待处理实时数据执行指 定处理操作之前, 各个数据计算子节 点, 还用于: 确定在每 个数据源的消息队列中所插 入的指定标识是否对齐; 若对齐, 则对获取到的第一待处 理实时数据执 行指定处 理操作。 7.根据权利要求5所述的系统, 其特征在于, 在各个数据计算子节点宕机重启后, 各个 数据计算子节点, 还用于: 获取所述状态管理服 务中记录的各个消息队列对应的数据状态; 所述各个数据计算子节点从至少一个数据源的消息队列中获取所述第一待处理实时 数据, 包括: 各个数据计算子节点从所获取的每个数据状态所表征的偏移地址开始, 从各个消息队 列中获取第一待处 理实时数据。 8.一种模型训练方法, 其特征在于, 所述方法应用于数据处理系统的任一目标任务节 点中的任一 目标模型训练子节点; 其中, 所述数据 处理系统包括: 至少一个任务节点, 每个 任务节点包括: 至少一个数据计算子节点、 至少一个模型训练子节点和共享内存, 各个数据 子节点是实时数据计算系统中的子节点, 各个模型训练子节点是模型训练系统中的子节 点; 所述方法包括: 从所述目标模型训练子节点所属的目标任务节点包括的目标共享内存中读取第一处 理结果; 其中, 所述第一处理结果是所述 目标任务节点包括的各个第一数据计算子节点对 获取到的第一待处 理实时数据执 行指定处 理操作所 得到, 并存 储到所述目标共享内存的; 利用所读取的第一处 理结果进行模型训练, 得到训练完成的目标模型。 9.根据权利要求8所述的方法, 其特征在于, 所述实时数据计算系统为: 分布式实时数 据计算系统; 所述模型训练系统为: 分布式模型训练系统; 所述方法还 包括: 将所述目标模型存储到所述目标共享内存, 以使得所述目标任务节点包括的各个第 一 数据计算子节点从所述目标共享内存获取所述目标模型, 并利用所述目标模型对获取到的 第二待处理实时数据进行处理, 得到第二处理结果, 并将所述第二处理结果存储到所述 目 标共享内存。 10.根据权利要求9所述的方法, 其特征在于, 每个任务节点设置有共享内存管理服务 器, 所述方法还 包括: 将所述目标模型的模型信息注册到所述目标任务节点所设置的目标共享内存管理服权 利 要 求 书 2/3 页 3 CN 114064312 A 3

.PDF文档 专利 一种数据处理系统及模型训练方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据处理系统及模型训练方法 第 1 页 专利 一种数据处理系统及模型训练方法 第 2 页 专利 一种数据处理系统及模型训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:00:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。