全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210593980.5 (22)申请日 2022.05.27 (71)申请人 平安普惠企业管理有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 刘杰  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/451(2018.01) (54)发明名称 单线程数据读取分发的跑批方法、 装置、 设 备及存储介质 (57)摘要 本发明涉及人工智能技术, 揭露了一种单线 程数据读取分发的跑批方法, 包括: 配置批量读 取大小, 初始化数据中心, 并展示已经跑批处理 成功的数据集合; 初始化读取线程和工作线程 池; 通过读取线程读取数据行, 直至读取到批量 读取大小条数据行或者将源文件读取完成, 并判 断被读取的数据行是否在数据集合中; 当被读取 的数据行在数据集合中时, 跳过数据行; 否则将 数据行传送至工作线程池; 对工作线程池中的数 据进行跑批处理, 并将该数据的行号区间同步到 数据中心。 此外, 本发明还涉及区块链技术, 待跑 批的源文件 可存储于区块链的节 点。 本发明还提 出一种单线程数据读取分发的跑批装置、 设备以 及存储介质。 本发明可以提高文 件跑批的效率。 权利要求书3页 说明书10页 附图3页 CN 114880125 A 2022.08.09 CN 114880125 A 1.一种单线程数据读取分发的跑批方法, 其特 征在于, 所述方法包括: 配置批量读取大小, 并初始化数据中心, 根据所述数据中心展示已经跑批处理成功 的 数据集合; 初始化读取线程, 并初始化工作线程池; 通过所述读取线程从前往后逐条读取预设的源文件中的数据行, 并判断被读取的数据 行是否在所述数据集 合中; 当所述被读取的数据行在所述数据集合中时, 跳过所述数据行, 并返回通过所述读取 线程从前往后逐条读取预设的源文件中的数据行的步骤, 直至读取到批量读取大小条数据 行或者将所述源文件读取完成; 当所述被读取的数据 行不在所述数据集合中时, 将所述数据行以及所述数据 行的行号 传送至所述工作线程池, 并返回通过所述读取线程从前往后逐条读取预设的源文件中的数 据行的步骤, 直至读取到 批量读取 大小条数据行或者将所述源文件读取完成; 按照预设的程序逻辑逐条对所述工作线程池中的数据进行跑批处理, 并将跑批处理后 的数据的行号区间同步到所述数据中心。 2.如权利要求1所述的单线程数据读取分发的跑批方法, 其特征在于, 所述根据 所述数 据中心展示已经 跑批处理成功的数据集 合, 包括: 初始化所述展示页面的跑批进度条; 初始化跑批计时器与预计结束时间; 轮询获取所述数据中心中已经跑批完成的数据集合的集合 区间, 根据 所述集合 区间和 所述跑批计时器 配置所述展示页面初始化后的跑批进度条和预计结束时间。 3.如权利要求2所述的单线程数据读取分发的跑批方法, 其特征在于, 所述初始化所述 展示页面的跑批进度条, 包括: 导入预设的绘图包与预设的数据接口; 通过所述绘图包配置所述跑批进度条的框架和进度动画; 通过所述数据接口将所述进度动画与所述跑批进度条的百分比进行关联。 4.如权利要求2所述的单线程数据读取分发的跑批方法, 其特征在于, 所述轮询获取所 述数据中心中已经跑批完成的数据集合的集合区间, 根据所述集合区间和所述跑批计时器 配置所述展示页面初始化后的跑批进度条和预计结束时间, 包括: 轮询获取已经 跑批完成的数据集 合的集合区间, 得到跑批 完成的数据行的行 数; 根据预先获取的源文件的数据行的总行数与所述跑批完成的数据行的行数计算得到 跑批进度的百分比; 根据所述跑批进度的百分比更新所述展示页面的跑批进度条; 根据所述跑批进度的百分比与所述跑批计时器 计算得到预计结束时间。 5.如权利要求1所述的单线程数据读取分发的跑批方法, 其特征在于, 所述判断被读取 的数据行 是否在所述数据集 合中, 包括: 获取被读取的数据行的行号; 通过预设的数字范围工具类将所述数据集合的集合区间与所述数据行的行号转化为 可计算的表达式; 通过所述表达式的返回值判断所述判断被读取的数据行 是否在所述数据集 合中。权 利 要 求 书 1/3 页 2 CN 114880125 A 26.如权利要求1所述的单线程数据读取分发的跑批方法, 其特征在于, 所述将跑批处理 后的数据的行号区间同步到所述数据中心, 包括: 通过预设的排序算法将跑批处 理后的数据的行号区间与所述 集合区间进行排序; 判断所述行号区间与所述 集合区间是否相邻; 当所述行号区间与所述集合区间相邻时, 将所述行号区间与所述集合区间进行合并, 并将合并后的集 合区间插 入数据中心; 当所述行号区间与 所述集合 区间不相邻时, 将所述行号 区间作为新的集合区间插入数 据中心。 7.如权利要求1至6中任一项所述的单线程数据读取分发的跑批方法, 其特征在于, 所 述通过预设的排序算法对所述行号区间与所述数据中心的集 合区间进行排序包括: 判断所述 集合区间的数量是否大于预设的第一阈值; 当所述集合区间的数量小于预设的第 一阈值时, 使用插入排序算法对所述行号 区间与 所述集合区间进行排序; 当所述集合区间的数量大于或等于预设的第 一阈值时, 对所述行号区间与 所述集合 区 间进行分段处 理, 并判断分段后的区间段 数量是否大于预设的第二阈值; 当所述区间段数量大于或等于预设的第 二阈值时, 使用堆排序算法对分段后的行号 区 间与集合区间进行排序; 当所述区间段数量小于预设的第 二阈值时, 使用插入排序对分段后的行号区间与集合 区间进行排序。 8.一种单线程数据读取分发的跑批装置, 其特 征在于, 所述装置包括: 跑批进度展示模块, 用于配置批量读取大小, 并初始化数据中心, 根据 所述数据中心展 示已经跑批处理成功的数据集 合; 线程初始化模块, 用于初始化读取线程, 并初始化工作线程池; 重复读取判断模块, 用于通过所述读取线程从前往后逐条读取预设的源文件中的数据 行, 并判断被读取的数据行 是否在所述数据集 合中; 第一批量读取模块, 用于处理当所述被读取的数据行在所述数据集合中时, 跳过所述 数据行, 并返回通过所述读取线程从前往后逐条读取预设的源文件中的数据行 的步骤, 直 至读取到 批量读取 大小条数据行或者将所述源文件读取完成; 第二批量读取模块, 用于处理当所述被读取的数据行不在所述数据集合中时, 将所述 数据行以及所述数据行的行号传送至所述工作线程池, 并返回通过所述读取线程从前往后 逐条读取预设的源文件中的数据行的步骤, 直至读取到批量读取大小 条数据行或者将所述 源文件读取完成; 行号区间 同步模块, 用于按照预设的程序逻辑逐条对所述工作线程池中的数据进行跑 批处理, 并将跑批处 理后的数据的行号区间同步到所述数据中心。 9.一种设备, 其特 征在于, 所述设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任意一项 所权 利 要 求 书 2/3 页 3 CN 114880125 A 3

.PDF文档 专利 单线程数据读取分发的跑批方法、装置、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 单线程数据读取分发的跑批方法、装置、设备及存储介质 第 1 页 专利 单线程数据读取分发的跑批方法、装置、设备及存储介质 第 2 页 专利 单线程数据读取分发的跑批方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:48:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。