专利 大数据数据治理任务运行方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210435861.7 (22)申请日 2022.04.24 (65)同一申请的已公布的文献号申请公布号 CN 114816750 A (43)申请公布日 2022.07.29 (73)专利权人江苏鼎集智能科技股份有限公司地址 225000 江苏省扬州市经济技术开发区扬子江中路18 6号智谷综合体B区15 层 (72)发明人孙长进　陈萍　 (74)专利代理机构武汉华强专利代理事务所 (普通合伙) 42237 专利代理师康晨 (51)Int.Cl. G06F 9/50(2006.01)(56)对比文件 CN 112214303 A,2021.01.12 CN 112035123 A,2020.12.04 CN 112333751 A,2021.02.0 5 US 10594562 B1,2020.0 3.17 US 2015074679 A1,2015.0 3.12 US 2020142758 A1,2020.0 5.07 US 2021184941 A1,2021.0 6.17 US 2021393147 A1,2021.12.23 Yuxuan Zhao 等.Tiny Autoscalers for Tiny Workloads: Dynamic CPU Al location for Serverles s Functi ons. 《arXiv》 .202 2, 罗南超.云计算中多服务器服务能力优化调度仿真. 《计算机仿真》 .2018,(第01期), 审查员王琨 (54)发明名称大数据数据治理任务运行方法 (57)摘要本发明涉及CPU资源分配技术领域，具体涉及大数据数据治理任务运行方法。方法为：构建数据治理应用程序，并部署到无服务器计算平台中；对所述实时的每个容器CPU资源利用率进行负载跟踪；获取最大负载追踪器序列，并根据其序列值获取变化度量；根据所述变化度量获取最优的负载追踪器序列长度并得到最近指数移动平均数序列；对所述最近指数移动平均数序列利用基于保底机制的线性外推预测法获取获取最合适的未来时刻CP U利用率；将上述CPU自动缩放方法进行集成，以使服务器可以动态调整容器 CPU资源。本方法具有计算复杂度低的优点，适用于无服务器函数的小型自动缩放，同时保持了良好的预测结果，可以广泛用于大数据资源服务、互联网数据服务。权利要求书2页说明书7页附图1页 CN 114816750 B 2022.12.23 CN 114816750 B 1.大数据数据治理任务运行方法，其特征在于，该方法包括以下步骤：构建数据治理应用程序，将所述数据治理应用程序部署到无服务器计算平台中，所述无服务器计算平台包含多个容器；根据所述无服务器计算平台获取实时的每个容器CPU资源利用率；利用指数移动平均法对所述实时的每个容器CPU资源利用率进行负载跟踪，得到每一时刻的指数移动平均数；设置最大负载追踪器长度，根据所述每一时刻的指数移动平均数获取最大负载追踪器序列；根据最大负载追踪器序列中的序列值获取变化度量，具体为：设置最大负载追踪器长度，然后获取当前时刻及前面时刻的指数移动平均值，组成最大负载追踪器序列；对最大负载追踪器序列进行波动分解，得到最大负载追踪器周期分量序列、最大负载追踪器余项分量序列；并获取最大负载追踪器周期分量序列、最大负载追踪器余项分量序列中每个序列值的对比度、熵；根据最大负载追踪器周期分量序列、最大负载追踪器余项分量序列中每个序列值的对比度、熵获取得到最大负载追踪器序列中每个序列值的变化度量；根据所述变化度量获取最优的负载追踪器序列长度；根据所述最优的负载追踪器序列长度获取最近指数移动平均数序列；对所述最近指数移动平均数序列利用线性外推预测法获取未来时刻的CPU利用率；构建保底机制，基于所述保底机制获取最合适的未来时刻CPU利用率；对CPU自动缩放方法进行集成，以使服务器可以动态调整容器CPU资源。 2.根据权利要求1所述的大数据数据治理任务运行方法，其特征在于，所述无服务器计算平台使用Kubernetes引擎来构建。 3.根据权利要求1所述的大数据数据治理任务运行方法，其特征在于，所述实时的每个容器CPU资源利用率的获取方法为：利用Kubernetes引擎中的cAdvisor进行资源使用的实时监控。 4.根据权利要求1所述的大数据数据治理任务运行方法，其特征在于，所述最大负载追踪器周期分量序列、最大负载追踪器余项分量序列中每个序列值的对比度、熵的获取方法为：对于分量中的每一个序列值，获取其左、右相邻4个的序列值，然后将序列值与左、右相邻4个的序列值组成一个局部分量序列，然后利用Kmeans算法对该局部分量序列进行分组，根据每个序列值的所属组的代号，赋值到局部度量序列中的每个序列值上，得到局部分组序列；根据局部分组序列中每个组的概率计算局部度量序列的熵；对于局部分组序列进行共现概率计算，度量每两个相邻数值对出现的概率，最终可得非重复共现对，基于所述非重复共现对计算对比度：表示U个分组情况下的非重复共现对的数学排列组合数量，、表示第Z1个非重复共现对的数值，表示第Z1类非重复共现对的在所有非重复共现对中的比例。 5.根据权利要求1所述的大数据数据治理任务运行方法，其特征在于，所述最近指数移权　利　要　求　书 1/2 页 2 CN 114816750 B 2动平均数序列的获取方法为：采用迭代的方式获取最优的负载追踪器长度，此处设置最小负载追踪器的长度，然后以时间最近为原则，迭代求取长度为最小负载追踪器的长度到最大负载追踪器的长度之间每个长度序列的变化度量，选取第一个转折点时的序列长度作为最优负载追踪器序列的长度；所述第一个转折点定义为该序列长度的变化度量小于下一个序列长度的变化度量。 6.根据权利要求1所述的大数据数据治理任务运行方法，其特征在于，所述利用线性外推预测法获取未来时刻的CPU利用率的方法为： q为最优负载追踪器序列的长度， k表示预测步长，分别表示第i时刻、第i ‑q时刻的指数移动平均值，表示预测的第i+1时刻的CPU利用率。 7.根据权利要求1所述的大数据数据治理任务运行方法，其特征在于，所述基于所述保底机制获取最合适的未来时刻CPU利用率的方法为：表示预测最合适的第i+1时刻的CPU利用率， Max为取最大操作，为映射系数， q 表示为最优负载追踪器序列长度，表示最近指数移动平局数序列的第u个值。 8.根据权利要求1所述的大数据数据治理任务运行方法，其特征在于，所述对CPU自动缩放方法进行集成的方式为：自动缩放算法集成到垂直 Pod 自动扩缩容推荐组件中，通过使用自定义自动缩放算法配置垂直 Pod 自动扩缩容，从而使垂直 Pod 自动扩缩容能够提供一种动态调整容器CPU资源请求大小的机制。权　利　要　求　书 2/2 页 3 CN 114816750 B 3

专利 大数据数据治理任务运行方法

专利大数据数据治理任务运行方法