全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210588450.1 (22)申请日 2022.05.27 (71)申请人 阿里云计算有限公司 地址 310000 浙江省杭州市西湖区转塘科 技经济区块12号 (72)发明人 崔栋灿 李雨涵 戴文军 林亮  李飞飞  (74)专利代理 机构 北京东方亿 思知识产权代理 有限责任公司 1 1258 专利代理师 彭琼 (51)Int.Cl. G06F 16/2453(2019.01) G06F 16/2455(2019.01) (54)发明名称 数据处理方法、 装置、 设备和存 储介质 (57)摘要 本申请公开了一种数据处理方法、 装置、 设 备和存储介质。 该数据处理方法基于计算节点的 执行资源, 执行第一任务和第二任务, 并构建与 计算节点对应的运行数据过滤器, 第一任务为多 个阶段中第一阶段的任务, 第二任务为多个阶段 中第二阶段的至少部分任务; 在第一阶段执行结 束且运行数据过滤器构建完成的情况下, 获取第 二任务的执行状态; 在执行状态表征第二任务未 执行结束的情况下, 执行第三任务, 得到第二阶 段中与第二任务对应的执行结果, 第三任务为通 过运行数据过滤器过滤第二任务后的任务。 根据 本申请实施例提供的数据处理方法, 能够优化 Join的查询性能, 缩短查询整体的运行时间。 权利要求书2页 说明书11页 附图4页 CN 114936223 A 2022.08.23 CN 114936223 A 1.一种数据处 理方法, 包括: 基于计算节点的执行资源, 执行第一任务和第二任务, 并构建与所述计算节点对应的 运行数据过滤器, 所述第一任务为多个阶段中第一阶段的任务, 所述第二任务为所述多个 阶段中第二阶段的至少部分任务; 在所述第一阶段执行结束且所述运行数据过滤器构建完成的情况下, 获取所述第 二任 务的执行状态; 在所述执行状态表征所述第二任务未执行结束的情况下, 执行第三任务, 得到所述第 二阶段中与所述第二任务对应的执行结果, 所述第三任务为通过所述运行数据过滤器过滤 所述第二任务后的任务。 2.根据权利要求1所述的方法, 其中, 所述基于计算节点的执行资源, 执行第一任务和 第二任务, 包括: 获取所述多个阶段中每 个阶段的任务数量; 基于所述执行资源和所述每个阶段的任务数量, 生成资源调度信息, 所述资源调度信 息用于指示每次并行执行任务的总 数量, 以及每次执行两个阶段 的任务的数量, 所述两个 阶段包括所述第一阶段和所述第二计算; 按照所述资源调度信息, 执 行第一任务和第二任务。 3.根据权利要求1或2所述的方法, 其中, 所述计算节点对应构造端的第一算子和探测 端的第二 算子; 所述执 行第一任务和第二任务, 包括: 通过所述第 一算子读取纬度表的第 一任务, 以及通过所述第 二算子读取事实表的第 二 任务。 4.根据权利要求3所述的方法, 其中, 所述构建与所述计算节点对应的运行数据过滤 器, 包括: 在所述第一算子读取所述纬度表中数据的过程中, 基于所述纬度表中数据, 在所述构 造端构建所述 运行数据过滤器。 5.根据权利要求3所述的方法, 其中, 所述计算节点对应所述构造端探测端的第三算 子; 所述执 行第三任务, 得到所述第二阶段中与所述第二任务对应的执 行结果, 包括: 将所述运行数据过滤器从所述构造端传输至所述第 三算子, 以及将所述第 二任务的副 本任务传输 至所述第三 算子; 通过所述第三算子中的运行数据过滤器过滤所述第二任务的副本任务, 得到第三任 务; 执行所述第三任务, 得到所述第二阶段中与所述第二任务对应的执 行结果。 6.根据权利要求5所述的方法, 其中, 所述方法还 包括: 在所述第二算子和所述第三算子中, 确定目标算子, 所述目标算子为最早输出与所述 第二任务对应的执 行结果的算子; 将所述目标算子的输出的执 行结果作为所述计算节点中连接操作算子的输入数据。 7.根据权利要求6所述的方法, 其中, 所述第二阶段还包括第 四任务; 所述将所述目标 算子的输出的执 行结果作为所述计算节点中连接操作算子的输入数据, 包括: 将所述目标算子的输出的执行结果和所述第四任务对应的执行结果作为所述连接操 作算子的输入数据。权 利 要 求 书 1/2 页 2 CN 114936223 A 28.根据权利要求7 所述的方法, 其中, 所述方法还 包括: 获取所述第四任务, 并将所述 运行数据过滤器从所述构造端传输 至所述第二 算子; 基于所述执行资源, 执行通过所述第 二算子中的运行数据过滤器过滤所述第四任务后 的第五任务, 得到所述第二阶段中与所述第四任务对应的执 行结果。 9.一种数据处 理装置, 包括: 处理模块, 用于基于计算节点的执行资源, 执行第 一任务和第二任务, 并构建与所述计 算节点对应的运行数据过滤器, 所述第一任务为多个阶段中第一 阶段的任务, 所述第二任 务为所述多个阶段中第二阶段的至少部分任务; 获取模块, 用于在所述第一阶段执行结束且所述运行数据过滤器构建完成的情况下, 获取所述第二任务的执 行状态; 执行模块, 用于在所述执行状态表征所述第二任务未执行完毕的情况下, 执行第三任 务, 得到所述第二阶段中与所述第二任务对应的执行结果, 所述第三任务为通过所述运行 数据过滤器过滤所述第二任务后的任务。 10.一种计算机设备, 包括: 存 储器和处 理器, 所述存储器, 用于存 储有计算机程序; 所述处理器, 用于执行所述存储器中存储的计算机程序, 所述计算机程序运行时使得 所述处理器执行权利要求1至8中任意 一项所述的数据处 理方法的步骤。 11.一种计算机可读存储介质, 所述计算机可读存储介质上存储程序或指令, 在所述程 序或指令被计算机设备执行的情况下, 使 得所述计算机 设备执行如权利要求 1至8中任意一 项所述的数据处 理方法的步骤。 12.一种计算机程序产品, 包括计算机程序, 在所述计算机程序被计算机设备执行的情 况下, 使得所述计算机设备 执行如权利要求1至8中任意 一项所述的数据处 理方法的步骤。权 利 要 求 书 2/2 页 3 CN 114936223 A 3

.PDF文档 专利 数据处理方法、装置、设备和存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置、设备和存储介质 第 1 页 专利 数据处理方法、装置、设备和存储介质 第 2 页 专利 数据处理方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:14:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。