(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210483036.4
(22)申请日 2022.05.05
(71)申请人 河钢数字技 术股份有限公司
地址 050000 河北省石家庄市高新区黄河
大道136号科技中心1号楼
(72)发明人 潘志威 李玉涛 魏晓飞 张楠
李宏鹏 栗濛 李飞 张韶
(74)专利代理 机构 石家庄知住优创知识产权代
理事务所(普通 合伙) 13131
专利代理师 王丽巧
(51)Int.Cl.
G06F 16/242(2019.01)
G06F 16/2455(2019.01)
G06F 16/27(2019.01)
G06F 9/54(2006.01)
(54)发明名称
一种优化维度组合的多维分析方法和系统
(57)摘要
本发明公开了一种优化维度组合的多维分
析方法和系统, 涉及多维数据分析技术领域。 该
优化维度组合的多维分析方法和系统, 数据源模
块支持导入Hive数据和Kafka消息队列, 并对外
提供Restful风格的接口方便调用; 构建预处理
cube模块时, 提供可视化的客户端界面, 用户可
以自行选择维度、 度量来构建符合自身需求; 构
建cube中提供了高级可选项, 其中包含衍生维度
的选择, 聚合组的添加, 必须维度的确定, 层 级制
度 及联 合 维 度的 设 定 ; 计 算 模 块中 提 供
MapReduce计算引擎和Spark计算引擎灵活处理
不同情况。
权利要求书2页 说明书6页 附图4页
CN 114880343 A
2022.08.09
CN 114880343 A
1.一种优化维度组合的多维分析 方法, 其特 征在于: 所述多维分析 方法包括以下步骤:
S1: 使用Kyl in OLAP引擎从数据源同步表元 数据;
S2: 使用Kyl in OLAP引擎, 根据表元 数据设计数据模型, 用于多维分析;
S3: 使用Kylin OLAP引擎, 基于数据模型, 进一步选取业务所要分析的指标和影响这些
指标的维度并设置分析指标的度量函数定义元数据, 所述分析的指标称为度量, 所述元数
据称为cube 元数据;
S4: 使用计算引擎, 根据S3诉述的cube元数据, 计算所有的维度组合, 所述维度组合是
一个个结果集, 每个结果集包含多行数据, 每行数据是当前维度组合下分析指标根据度量
函数计算得到的数值结果;
S5: 统计各个维度组合的行数, 并分析计算各个维度组合对整个多维分析的效益比, 从
中优化剔除不必要的维度组合;
S6: 根据S5所述的剔除后的维度组合结果由存 储引擎存 储;
S7: 写SQL通过查询引擎对维度组合结果进行简单聚合得到结果并返回。
2.根据权利要求1所述的一种 优化维度组合的多维分析方法, 其特征在于: 所述数据源
包括: Hive 数据源、 Kafka数据源。
3.根据权利要求1所述的一种 优化维度组合的多维分析方法, 其特征在于: 所述设计数
据模型包括多维分析中常用的星 型模型和雪花模型, 所述星 型模型是指度量所在的表与其
他维度所在的表通过某个条件关联, 组成一个星型结构的物理视图, 所述雪花模型就是度
量所在的表与其他维度所在的表关联, 而这些其他维度所在的表又被另外的表关联, 即在
星型基础上拓展成了 雪花结构的物理视图。
4.根据权利要求1所述的一种优化维度组合的多维分析方法, 其特征在于: 所述S3中,
所述度量函数包括但不限于和(SUM)、 最大值(MAX)、 最小值(MIN)、 计数(COUNT)、 不同数据
的行数(COUNT_DIS DINCT)、 前N项(TOP_N)。
5.根据权利要求1所述的一种 优化维度组合的多维分析方法, 其特征在于: 所述计算引
擎包括但不限于: Map Reduce引擎和Spark引擎, S4中的计算所有的维度结果是指n个维度,
会产生2n个不同的维度组合, 维度组合有高有低, 低维度组合是在高维度组合的基础上聚
合得到的, 维度组合称为cubo id, 最高维度组合称为base cuboid, 维度组合称为 一个cube。
6.根据权利要求1所述的一种优化维度组合的多维分析方法, 其特征在于: S5 中所述优
化剔除包括:
根据S5所述各个维度组合的行 数, 第一步计算各个维度组合的效益比;
根据所述效益比进行排序, 第一次选出效益比最高的一个维度组合加入备选集合, 并
从剩余维度组合中继续计算效益比, 后续循环操作, 每次加入效益比最高的一个维度组合,
直至低于设定阈值后终止, 所述阈值是事先设置的一个效益比值;
根据所述备选集 合, 剔除所有不在备选集 合的维度组合。
7.根据权利要求1所述的一种优化维度组合的多维分析方法, 其特征在于: 所述S6 中所
述存储引擎为HBase引擎。
8.根据权利要求1所述的一种优化维度组合的多维分析方法, 其特征在于: 所述S7中所
述查询引擎 为Kylin内部查询引擎。
9.一种优化维度组合的多维分析系统, 其特 征在于: 所述多维分析系统包括:权 利 要 求 书 1/2 页
2
CN 114880343 A
2数据源模块, 用于提供多维分析所需的数据, 数据源模块包括Hive数据仓库和Kafk a消
息队列;
构建模块, 用于数据获取和建模, 通过Kylin OLAP引擎, 根据 业务需要从数据源同步对
应的表元数据, 并根据表元数据设计数据模型, 根据数据模型选取维度列和度量列并设置
度量列的度量 函数指标完成cube 元数据的定义;
计算模块, 用于多维分析计算, 根据cube元数据的定义, 通过MapReduce计算引擎或
Spark计算引擎完成对各个维度组合结果的计算;
优化模块, 用于优化维度组合结果, 根据计算得到的维度组合结果;
存储模块, 用于对 优化的维度结果进行存 储, 通过HBase存 储引擎, 将优化结果存 储;
查询模块, 解析用户的SQL语句, 从存储引擎聚合查询到维度组合结果, 并返回所述维
度组合结果。权 利 要 求 书 2/2 页
3
CN 114880343 A
3
专利 一种优化维度组合的多维分析方法和系统
安全报告 >
其他 >
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:09:03上传分享