(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210536832.X
(22)申请日 2022.05.17
(71)申请人 在线途游 (北京) 科技有限公司
地址 100012 北京市朝阳区红军营南路3 6
号暖山生活B座
申请人 北京云游互动网络科技有限公司
(72)发明人 韩腾辉 张哲铭 周欣 杨东
其他发明人请求 不公开姓名
(51)Int.Cl.
G06F 16/242(2019.01)
G06F 16/2453(2019.01)
G06F 16/2455(2019.01)
(54)发明名称
一种基于UDAF的数据分析方法及装置
(57)摘要
本申请公开了一种基于UDAF的数据分析方
法及装置, 方法包括: 定义UDAF函数并注册到
presto引擎内; 利用所述UDAF函数对用户数据进
行聚合运算得到运算合集; 基于SQL语句对所述
运算合集进行分析, 并输出分析结果。 本申请中,
定义UDAF函数并注册 到presto引擎内, 通过利用
presto是基于内存查询的特性, 不仅实现了SQL
语句的查询速度, 减少查询寻耗时, 并在此基础
上实现了一种用户数据分析的函数模型。
权利要求书2页 说明书10页 附图1页
CN 114817299 A
2022.07.29
CN 114817299 A
1.一种基于UDAF函数的数据分析 方法, 其特 征在于, 包括:
定义UDAF函数并注 册到presto引擎内;
利用所述UDAF函数对用户数据进行聚合 运算得到运 算合集;
基于SQL语句对所述 运算合集进行分析, 并输出分析 结果。
2.根据权利要求1所述的方法, 其特征在于, 所述利用UDAF函数对用户数据进行聚合运
算得到运 算合集, 包括:
利用UDAF函数获取每一行用户数据的状态数据;
对所述状态数据进行聚合;
基于所述状态数据的聚合, 输出运 算合集。
3.根据权利要求2所述的方法, 其特征在于, 所述利用UDAF函数获取每一行用户数据的
状态数据还 包括:
对用户数据进行分组, 利用UDAF函数获取分组后的用户数据的状态数据。
4.根据权利要求3所述的方法, 其特征在于, 所述利用UDAF函数获取分组后的用户数据
的状态数据, 包括:
将UDAF函数的参数作为过滤条件, 对分组后的用户数据中每一行数据进行过滤, 得到
分组状态数据。
5.根据权利要求4所述的方法, 其特征在于, 所述将UDAF函数的参数作为过滤条件, 对
分组后的用户数据中每一行 数据进行 过滤, 得到分组状态数据包括:
将包含了用户数据的字段的语句作为UDAF函数的参数;
对每一组用户数据, 生成一个内存切片;
利用所述参数对所述每一组用户数据进行过滤, 在所述内存切片中插入每一个参数对
应的过滤结果, 得到分组状态数据。
6.根据权利要求5所述的方法, 其特 征在于,
所述UDAF函数的参数包括由逻辑运算符和/或比较运算符与用户数据的字段组成的语
句;
所述参数类型为布尔型。
7.根据权利要求5所述的方法, 其特 征在于,
对分组状态数据进行聚合, 得到包 含过滤结果的多维数组。
8.根据权利要求7 所述的方法, 其特 征在于,
所述过滤结果为True或者False。
9.根据权利要求1所述的方法, 其中, 所述基于SQL语句对所述运算合集进行分析, 并输
出分析结果包括:
利用SQL语句中的函数对所述 运算合集进行统计分析, 得到分析 结果。
10.一种基于UDAF函数的数据分析装置, 其特 征在于, 包括:
注册模块, 用于 定义UDAF函数并注 册到presto引擎内;
聚合模块, 用于利用所述UDAF函数对用户数据进行聚合 运算得到运 算合集;
分析模块, 用于基于SQ L语句对所述 运算合集进行分析, 并输出分析 结果。
11.一种计算设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算
机指令, 其特征在于, 所述处理器执行所述指 令时实现权利要求 1‑9任意一项 所述方法的步权 利 要 求 书 1/2 页
2
CN 114817299 A
2骤。
12.一种计算机可读存储介质, 其存储有计算机指令, 其特征在于, 该指令被处理器执
行时实现权利要求1 ‑9任意一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 114817299 A
3
专利 一种基于UDAF的数据分析方法及装置
安全报告 >
其他 >
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:09:34上传分享