(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210483036.4 (22)申请日 2022.05.05 (71)申请人 河钢数字技 术股份有限公司 地址 050000 河北省石家庄市高新区黄河 大道136号科技中心1号楼 (72)发明人 潘志威 李玉涛 魏晓飞 张楠  李宏鹏 栗濛 李飞 张韶  (74)专利代理 机构 石家庄知住优创知识产权代 理事务所(普通 合伙) 13131 专利代理师 王丽巧 (51)Int.Cl. G06F 16/242(2019.01) G06F 16/2455(2019.01) G06F 16/27(2019.01) G06F 9/54(2006.01) (54)发明名称 一种优化维度组合的多维分析方法和系统 (57)摘要 本发明公开了一种优化维度组合的多维分 析方法和系统, 涉及多维数据分析技术领域。 该 优化维度组合的多维分析方法和系统, 数据源模 块支持导入Hive数据和Kafka消息队列, 并对外 提供Restful风格的接口方便调用; 构建预处理 cube模块时, 提供可视化的客户端界面, 用户可 以自行选择维度、 度量来构建符合自身需求; 构 建cube中提供了高级可选项, 其中包含衍生维度 的选择, 聚合组的添加, 必须维度的确定, 层 级制 度 及联 合 维 度的 设 定 ; 计 算 模 块中 提 供 MapReduce计算引擎和Spark计算引擎灵活处理 不同情况。 权利要求书2页 说明书6页 附图4页 CN 114880343 A 2022.08.09 CN 114880343 A 1.一种优化维度组合的多维分析 方法, 其特 征在于: 所述多维分析 方法包括以下步骤: S1: 使用Kyl in OLAP引擎从数据源同步表元 数据; S2: 使用Kyl in OLAP引擎, 根据表元 数据设计数据模型, 用于多维分析; S3: 使用Kylin  OLAP引擎, 基于数据模型, 进一步选取业务所要分析的指标和影响这些 指标的维度并设置分析指标的度量函数定义元数据, 所述分析的指标称为度量, 所述元数 据称为cube 元数据; S4: 使用计算引擎, 根据S3诉述的cube元数据, 计算所有的维度组合, 所述维度组合是 一个个结果集, 每个结果集包含多行数据, 每行数据是当前维度组合下分析指标根据度量 函数计算得到的数值结果; S5: 统计各个维度组合的行数, 并分析计算各个维度组合对整个多维分析的效益比, 从 中优化剔除不必要的维度组合; S6: 根据S5所述的剔除后的维度组合结果由存 储引擎存 储; S7: 写SQL通过查询引擎对维度组合结果进行简单聚合得到结果并返回。 2.根据权利要求1所述的一种 优化维度组合的多维分析方法, 其特征在于: 所述数据源 包括: Hive 数据源、 Kafka数据源。 3.根据权利要求1所述的一种 优化维度组合的多维分析方法, 其特征在于: 所述设计数 据模型包括多维分析中常用的星 型模型和雪花模型, 所述星 型模型是指度量所在的表与其 他维度所在的表通过某个条件关联, 组成一个星型结构的物理视图, 所述雪花模型就是度 量所在的表与其他维度所在的表关联, 而这些其他维度所在的表又被另外的表关联, 即在 星型基础上拓展成了 雪花结构的物理视图。 4.根据权利要求1所述的一种优化维度组合的多维分析方法, 其特征在于: 所述S3中, 所述度量函数包括但不限于和(SUM)、 最大值(MAX)、 最小值(MIN)、 计数(COUNT)、 不同数据 的行数(COUNT_DIS DINCT)、 前N项(TOP_N)。 5.根据权利要求1所述的一种 优化维度组合的多维分析方法, 其特征在于: 所述计算引 擎包括但不限于: Map Reduce引擎和Spark引擎, S4中的计算所有的维度结果是指n个维度, 会产生2n个不同的维度组合, 维度组合有高有低, 低维度组合是在高维度组合的基础上聚 合得到的, 维度组合称为cubo id, 最高维度组合称为base  cuboid, 维度组合称为 一个cube。 6.根据权利要求1所述的一种优化维度组合的多维分析方法, 其特征在于: S5 中所述优 化剔除包括: 根据S5所述各个维度组合的行 数, 第一步计算各个维度组合的效益比; 根据所述效益比进行排序, 第一次选出效益比最高的一个维度组合加入备选集合, 并 从剩余维度组合中继续计算效益比, 后续循环操作, 每次加入效益比最高的一个维度组合, 直至低于设定阈值后终止, 所述阈值是事先设置的一个效益比值; 根据所述备选集 合, 剔除所有不在备选集 合的维度组合。 7.根据权利要求1所述的一种优化维度组合的多维分析方法, 其特征在于: 所述S6 中所 述存储引擎为HBase引擎。 8.根据权利要求1所述的一种优化维度组合的多维分析方法, 其特征在于: 所述S7中所 述查询引擎 为Kylin内部查询引擎。 9.一种优化维度组合的多维分析系统, 其特 征在于: 所述多维分析系统包括:权 利 要 求 书 1/2 页 2 CN 114880343 A 2数据源模块, 用于提供多维分析所需的数据, 数据源模块包括Hive数据仓库和Kafk a消 息队列; 构建模块, 用于数据获取和建模, 通过Kylin  OLAP引擎, 根据 业务需要从数据源同步对 应的表元数据, 并根据表元数据设计数据模型, 根据数据模型选取维度列和度量列并设置 度量列的度量 函数指标完成cube 元数据的定义; 计算模块, 用于多维分析计算, 根据cube元数据的定义, 通过MapReduce计算引擎或 Spark计算引擎完成对各个维度组合结果的计算; 优化模块, 用于优化维度组合结果, 根据计算得到的维度组合结果; 存储模块, 用于对 优化的维度结果进行存 储, 通过HBase存 储引擎, 将优化结果存 储; 查询模块, 解析用户的SQL语句, 从存储引擎聚合查询到维度组合结果, 并返回所述维 度组合结果。权 利 要 求 书 2/2 页 3 CN 114880343 A 3

.PDF文档 专利 一种优化维度组合的多维分析方法和系统

安全报告 > 其他 > 文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种优化维度组合的多维分析方法和系统 第 1 页 专利 一种优化维度组合的多维分析方法和系统 第 2 页 专利 一种优化维度组合的多维分析方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 00:09:03上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。