全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210605685.7 (22)申请日 2022.05.30 (71)申请人 中银金融科技有限公司 地址 200120 上海市浦东 新区(上海)自由 贸易试验区银城中路20 0号4楼408室 (72)发明人 陈国杰  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 张琪 (51)Int.Cl. G06F 16/172(2019.01) G06F 9/50(2006.01) G06F 3/06(2006.01) (54)发明名称 文件数据处 理方法及装置 (57)摘要 本发明提供一种文件 数据处理方法及 装置, 该方法包括: 获取批量文件的配置文件, 从配置 文件中解析出每一文件的配置信息; 在批量文件 中存在文件大小大于预设阈值的目标文件的情 况下, 对目标文件进行拆分, 得到目标文件的多 个子文件; 从线程池中调用多个第一线程, 基于 多个第一线程中的每一第一线程, 将每一第一线 程对应的子文件写入缓存队列中; 从线程池中调 用多个第二线程, 基于多个第二线程中的每一第 二线程, 从缓存队列中读取每一第二线程对应的 子文件, 并对每一第二线程对应的子文件执行相 应的处理逻辑; 根据多个子文件的处理结果, 获 取目标文件的处理结果。 本发明实现有效提高文 件数据处 理的灵活性、 性能和效率。 权利要求书3页 说明书13页 附图2页 CN 115114247 A 2022.09.27 CN 115114247 A 1.一种文件数据处 理方法, 其特 征在于, 包括: 获取批量文件的配置文件, 从所述配置文件中解析出每一文件的配置信息; 所述配置 信息中包括文件大小和处 理逻辑; 在所述批量文件中存在文件大小大于预设阈值的目标文件的情况下, 对所述目标文件 进行拆分, 得到所述目标文件的多个子文件; 从线程池中调用多个第一线程, 基于所述多个第一线程中的每一第一线程, 将所述每 一第一线程对应的子文件写入缓存队列中; 所述多个第一线程用于并行 执行写入操作; 从所述线程池中调用多个第二线程, 基于所述多个第二线程中的每一第二线程, 从所 述缓存队列中读取所述每一第二线程对应的子文件, 并对所述每一第二线程对应的子文件 执行相应的处 理逻辑; 所述多个第二线程用于并行 执行读取操作和并行 执行处理逻辑; 根据所述多个子文件的处 理结果, 获取 所述目标文件的处 理结果。 2.根据权利要求1所述的文件数据处理方法, 其特征在于, 所述配置文件中还包括线程 池参数; 所述从线程池中调用多个第一线程, 基于所述多个第一线程中的每一第一线程, 将所 述每一第一线程对应的子文件写入缓存队列中, 包括: 根据所述线程池参数确定所述线程池中所述第一线程的总数量; 根据所述第 一线程的总数量和每一第 一线程的运行情况, 确定调用所述第 一线程的目 标数量; 调用所述目标数量的第一线程, 基于所述目标数量的第一线程中的每一第一线程, 读 取所述每一第一线程对应的子文件, 并将 读取到的子文件写入所述缓存队列中。 3.根据权利要求2所述的文件数据处理方法, 其特征在于, 所述调用所述目标数量的第 一线程, 基于所述 目标数量的第一线程中的每一第一线程, 读取所述每一第一线程对应的 子文件, 并将 读取到的子文件写入所述缓存队列中, 包括: 在所述目标数量小于所述多个子文件中待写入子文件的数量的情况下, 调用所述目标 数量的第一线程, 基于所述 目标数量的第一线程中的每一第一线程, 读取所述每一第一线 程对应的待写入子文件, 并将读取到的待写入子文件写入所述缓存队列中, 并持续监听所 述线程池中每一第一线程的运行情况和获取 所述多个子文件中的剩余待 写入子文件; 在确定所述线程池中存在运行状态为空闲状态的目标第 一线程的情况下, 调用所述目 标第一线程, 读取所述 目标第一线程对应的剩余待写入子文件, 并将读取到的剩余待写入 子文件写入所述缓存队列中, 直到所述多个子文件均写入所述缓存队列。 4.根据权利要求1 ‑3任一所述的文件数据处 理方法, 其特 征在于, 所述方法还 包括: 将每一第二线程对应的子文件的处 理结果写入所述每一第二线程对应的存 储文件中; 根据所述批量文件中每一文件的处理逻辑, 获取所述批量文件中处理逻辑相同的文 件; 根据所述存储文件, 对所述处理逻辑相同的文件对应的处理结果进行合并后写入数据 库; 或者, 根据所述存储文件, 将所述处理逻辑相同的文件对应的处理结果批量写入所述 数据库。 5.根据权利要求1 ‑3任一所述的文件数据处理方法, 其特征在于, 所述获取批量文件的权 利 要 求 书 1/3 页 2 CN 115114247 A 2配置文件, 从所述配置文件中解析 出每一文件的配置信息, 包括: 获取所述批量文件的配置文件, 并对所述配置文件进行正确性验证; 在所述配置文件通过验证的情况下, 从所述配置文件中解析出所述每一文件的配置信 息; 在所述配置文件未通过验证的情况下, 根据所述批量文件的属性信息, 对所述配置文 件进行更新, 并对更新后的配置文件进行正确 性验证, 直到所述更新后的配置文件通过验 证; 在所述更新后的配置文件通过验证的情况下, 从所述更新后的配置文件中解析出所述 每一文件的配置信息 。 6.根据权利要求1 ‑3任一所述的文件数据处理方法, 其特征在于, 所述对所述目标文件 进行拆分, 得到所述目标文件的多个子文件, 包括: 根据所述预设阈值和所述目标文件的属性信息, 确定所述目标文件的拆分数量; 根据所述拆分数量, 对所述目标文件进行拆分, 得到数量为所述拆分数量的多个子文 件; 或者, 根据所述预设阈值和所述目标文件的属性信息, 确定所述目标文件的拆分大小; 按照所述拆分大小, 对所述目标文件进行拆分, 得到文件大小小于或等于所述拆分大 小的所述多个子文件; 其中, 所述拆分大小 小于所述预设阈值。 7.根据权利要求1 ‑3任一所述的文件数据处理方法, 其特征在于, 所述配置信 息中还包 括解压缩状态; 在所述对所述目标文件进行拆分, 得到所述目标文件的多个子文件之前, 所述方法还 包括: 判断所述批量文件中的每一文件的解压缩状态是否为待解压缩状态; 对所述批量文件中解压缩状态为待解压缩状态的文件进行解压缩处 理。 8.一种文件数据处 理装置, 其特 征在于, 包括: 解析模块, 用于获取批量文件的配置文件, 从所述配置文件中解析出每一文件的配置 信息; 所述配置信息中包括文件大小和处 理逻辑; 拆分模块, 用于在所述批量文件中存在文件大小大于预设阈值的目标文件的情况下, 对所述目标文件进行拆分, 得到所述目标文件的多个子文件; 缓存模块, 用于从线程池中调用多个第一线程, 基于所述多个第一线程中的每一第一 线程, 将所述每一第一线程对应的子文件写入缓存队列中; 所述多个第一线程用于并行执 行写入操作; 处理模块, 用于从所述线程池中调用多个第二线程, 基于所述多个第二线程中的每一 第二线程, 从所述缓存队列中读取所述每一第二线程对应的子文件, 并对所述每一第二线 程对应的子文件执行相应的处理逻辑; 所述多个第二线程用于并行执行读取操作和并行执 行处理逻辑; 获取模块, 用于根据所述多个子文件的处 理结果, 获取 所述目标文件的处 理结果。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述文件数据处 理方法。权 利 要 求 书 2/3 页 3 CN 115114247 A 3

.PDF文档 专利 文件数据处理方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文件数据处理方法及装置 第 1 页 专利 文件数据处理方法及装置 第 2 页 专利 文件数据处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:32:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。