全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210642059.5 (22)申请日 2022.06.07 (71)申请人 北京一流科技有限公司 地址 100083 北京市海淀区王庄路1号院2 号楼4层5 -E-1 (72)发明人 柳俊丞 郭冉 郑泽康 谢暄  韩彬彬  (74)专利代理 机构 北京金讯知识产权代理事务 所(特殊普通 合伙) 11554 专利代理师 黄剑飞 (51)Int.Cl. G06F 9/50(2006.01) G06N 20/00(2019.01) (54)发明名称 静态数据处理系统中对数据执行向量化的 系统及方法 (57)摘要 本发明公开了一种用于静态数据处理系统 中对数据执行向量化的系统及其方法。 所述系统 包括: 词表划分组件、 数据向量化前向组件以及 数据向量化后向组件。 所述数据向量化前向组件 包括第一去重前向执行体、 词表梳理前向执行 体、 第二去重前向执行体、 用于按照预定的预取 数量根据本地协处理器所使用的第二无重复数 据的待处理词表分片预取预定数量的词表数据 的词表数据预取前向执行体、 用于在从词表数据 预取前向执行体获得其完成预取的消息时基于 预定的向量化规则对预定数量的词表数据执行 向量化查询处理的词表向量化查询前向执行体、 第二复原前向执行体、 表征向量逆梳前向执行 体、 以及第一复原前向执 行体。 权利要求书4页 说明书11页 附图7页 CN 114996012 A 2022.09.02 CN 114996012 A 1.一种用于静态数据处理系统中对数据执行向量化的系统, 包括: 用于将待输入的一 个批次的词表的编号平均划分成与并行运行的多个协处理器数量相等的多个初始数据词 表分片并分配输入给对应的协处理器的词表划分组件, 以及对应每个协处理器部署的数据 向量化前向组件以及数据向量化后向组件, 数据向量化前向组件包括流式部署的多个数据 向量化前向执行体, 数据向量后向化组件包括流式部署的多个数据向量化后向执行体, 其 中 所述多个数据向量化前向执行体针对输入的连续批次的词表执行不同阶段的流式并 行处理, 并包括: 第一去重前向执行体, 用于对所接收到的初始词表分片进行特征序号去重处理, 获得 为本地协处理器所使用的第一无重复数据词表分片以及预存第一用于复原的数据词表分 片; 词表梳理前向执行体, 按照数据的序号将本地第 一无重复数据词表分片基于预定分割 规则不属于本地协处理器的数据词表分割出来发送到其所属的协处理器, 并接收从其他协 处理器的词表梳理前向执行体发送过来的数据词表, 从而 形成本批次词表中的基于预定分 割规则属于 本地协处 理器的第一待处 理词表分片; 第二去重前向执行体, 用于在接收到词表梳理前向执行体完成交换的消息时, 对第一 待处理词表进 行去重处理, 获得为本地协处理器所使用的第二无重复数据的待处理词表分 片并预存第二用于复原的待处 理词表分片; 词表数据预取前向执行体, 用于从第二去重前向执行体获得其完成去重的消息时, 按 照预定的预取数量, 根据本地协处理器所使用的第二无重复数据的待处理词表分片预取预 定数量的词表数据; 词表向量化查询前向执行体, 在从词表数据 预取前向执行体获得其完成预取的消息以 及前一批次词表的表征向量被所述数据向量化后向组件更新完成的消息时, 基于预定的向 量化规则对预定数量的词表数据执行向量化查询处理, 从而获得所预取的预定数量的词表 数据的所对应的预 取数量的表征向量分片; 第二复原前向执行体, 在从词表向量化查询前向执行体获得其完成向量化查询处理 的 消息后, 基于所预存的第二用于复原的待处理词表分片以及预取数量的表征向量分片对所 预存的第二用于复原的待处理词表分片中的对应的重复的词表执行对应的向量化复原, 获 得与所预存的第二用于复原的待处理词表分片对应的第二重复表征向量分片, 由此第二重 复表征向量分片与预 取数量的表征向量分片形成第二复原 表征向量分片; 表征向量逆梳前向执行体, 在从第二复原前向执行体获得其完成复原 的消息时, 将所 述第二复原表征向量分片中的词表梳理前向执行体从其他协处理器所获得 的数据词表所 对应的表征向量返还发送到所述其他协处理器并进行本地删除, 以及接收从其他协处理器 的表征向量逆梳前向执行体所返还的与本地词表梳理前向执行体所发送出去的数据词表 所对应的表征向量, 形成与所述本地协处理器所使用的第一无重复数据词表分片对应的第 一无重复表征向量分片; 以及 第一复原前向执行体, 在从表征向量逆梳前向执行体获得其完成表征向量交换的消息 之后, 基于所预存的第一用于复原的数据词表分片以及第一无重复表征向量分片, 对所预 存的第一用于复原的数据词表分片中的对应的重复的词表执行对应的向量化复原, 获得与权 利 要 求 书 1/4 页 2 CN 114996012 A 2所预存的第一用于复原的数据词表分片对应的第一重复表征向量分片, 由此第一重复表征 向量分片与第一无重复表征向量分片形成第一复原 表征向量分片。 2.根据权利要求1所述的用于静态数据处理系统中对数据执行向量化的系统, 其中所 述数据向量 化后向组件 包括: 向量差分执行体, 对经过损失函数执行体处理后的第 一复原表征向量分片进行差分处 理; 第一归并后向执行体, 对向量差分执行体输出的表征向量差分结果基于预存第 一用于 复原的数据词表分片的序号执 行去重处 理, 获得第一 不重复的表征向量差分结果; 表征向量差分梳理后向执行体, 基于预存第二用于复原 的待处理词表分片的序号, 从 第一不重复的表征向量差分结果分割出不属于本地协处理器的表征向量差分结果并发送 到对应的其他协处理器, 以及接收从其他协处理器的表征向量差分梳理后向执行体发送来 的属于本地协处理器的表征向量差 分, 从而形成属于本地协处理器的第二不重复的表征向 量差分结果; 表征向量值更新后向执行体, 基于词表向量化查询前向执行体获得的表征向量的值以 及预定的学习频率, 更新第二 不重复的表征向量差分结果的值; 以及 表征向量更新后向执行体, 用于利用所更新的第 二不重复的表征向量差分结果的值以 及所预取的预定数量的词表数据的上 下文对初始数据词表分片进行 更新。 3.根据权利要求1或2所述的用于静态数据处 理系统中对数据执 行向量化的系统, 其中 所述词表划分组件、 第一去重前向执行体和词表梳理前向执行体、 词表数据预取前向 执行体和词表向量化查询前向执行体、 以及数据向量化后向组件被部署在并行的四个任务 流中。 4.根据权利要求1或2所述的用于静态数据处理系统中对数据执行向量化的系统, 其中 所述词表梳理前向执行体、 表征向量逆梳前向执行体、 表征向量差分梳理后向执行体通过 NCCL通讯方式在不同协处 理器之间进行 数据交换。 5.一种用于静态数据处理系统中对数据执行向量化的方法, 包括: 通过词表划分组件 将待输入的一个批次的词表的编号平均划分成与并行运行的多个协处理器数量相等的多 个初始数据词表分片并分配输入给对应的协处理器的, 其中对应每个协处理器部署的数据 向量化前向组件以及数据向量化后向组件, 数据向量化前向组件包括流式部署的多个数据 向量化前向执行体, 数据向量后向化组件包括流式部署的多个数据向量化后向执行体, 其 中 所述多个数据向量化前向执行体针对输入的连续批次的词表执行不同阶段的流式并 行处理, 并包括: 通过第一去重前向执行体对所接收到的初始词表分片进行特征序号去重处理, 获得为 本地协处 理器所使用的第一无重复数据词表分片以及预存第一用于复原的数据词表分片; 通过词表梳理前向执行体按照数据的序号将本地第一无重复数据词表分片基于预定 分割规则不属于本地协处理器的数据词表分割出来发送到其所属的协处理器, 并接收从其 他协处理器的词表梳理前向执行体发送过来的数据词表, 从而形成本批次词表中的基于预 定分割规则属于 本地协处 理器的第一待处 理词表分片; 通过第二去重前向执行体在接收到词表梳理前向执行体完成交换的消息时, 对第 一待权 利 要 求 书 2/4 页 3 CN 114996012 A 3

.PDF文档 专利 静态数据处理系统中对数据执行向量化的系统及方法

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 静态数据处理系统中对数据执行向量化的系统及方法 第 1 页 专利 静态数据处理系统中对数据执行向量化的系统及方法 第 2 页 专利 静态数据处理系统中对数据执行向量化的系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:34:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。