(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211071086.8
(22)申请日 2022.09.01
(71)申请人 桂林电子科技大 学
地址 541004 广西壮 族自治区桂林市七 星
区金鸡路1号
(72)发明人 黄娅婷 李春海 李晓欢 姚荣彬
苏昭宇
(74)专利代理 机构 桂林文必达专利代理事务所
(特殊普通 合伙) 45134
专利代理师 张学平
(51)Int.Cl.
G06F 9/445(2018.01)
G06F 9/50(2006.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于Kafka的大数据系统访问量骤增时用户
卡顿解决方法
(57)摘要
本发明涉及性能调优技术领域, 具体涉及一
种基于Kafka的大数据系统访问量骤增时用户卡
顿解决方法, 使用默认配置在Kafka集群上运行
工作负载W, 并记录下所需时间T, 抽样获取配置
样本数据集并部署在Kafka集群上在相同的工作
负载W与工作时间T下运行, 选出性能较好的一部
分配置组合数据并作标准化处理作为样本数据
集; 然后将训练样本输入生 成器与判别器并同时
对他们进行训练, 训练完成后生成器生成N组配
置, 部署运行Kafka并记录每组配置的吞吐率, 选
出训练样 本与生成器生成的N组样 本中性能最好
的那组配置即为调优目标。 本发明能对Kafka消
息系统进行有效调优, 在相同工作环 境下相比默
认配置的性能得到提高。
权利要求书2页 说明书5页 附图1页
CN 115454525 A
2022.12.09
CN 115454525 A
1.一种基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特征在于, 包括下
列步骤:
使用默认配置在Kafka集群上运行工作负载W, 并记录下 所需时间T;
使用抽样方法获得初始样本, 并筛 选出训练样本;
将所述训练样本 输入GAN模块进行训练;
比较训练结果, 根据吞吐率选 定目标配置 。
2.如权利要求1所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特
征在于,
在使用抽样方法获得初始样本, 并筛选出训练样本的过程中, 首先使用抽样方法对每
个参数在取值范围内进行抽样并运行Kafka, 在相同的工作负载W与工作时间T下监控吞吐
率并与相 应组配置配对得到初始样本, 再对初始样本的吞吐率作排序, 选出吞吐率大 的配
置组合并标准 化作为训练样本 。
3.如权利要求2所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特
征在于,
筛选出训练样本的方法, 包括下列步骤:
筛选Kafka提供的1 1项对性能影响大的参数作为抽样目标;
使用拉丁超立方抽样方法对每个参数在取值范围内进行抽样, 抽取a组配置后运行
Kafka, 记录在工作负载W相同工作时间T下的性能吞吐率;
选择b组最 好性能的配置参数组合, 并对参数 数据集作标准 化处理作为训练样本 。
4.如权利要求3所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特
征在于,
参数数据集标准 化的具体方式是:
其中, μ为 参数的平均值, σ 为 参数的标准差 。
5.如权利要求1所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特
征在于,
所述GAN模块包括生成器G与判别器D, 使用三层神经网络作为生成器和判别器的架构
模型, 在生成器隐藏层中加入自注意力机制, 在训练时同时训练生成器与判别器。
6.如权利要求5所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特
征在于,
将所述训练样本 输入GAN模块进行训练的过程, 包括下列步骤:
将训练样本数据输入GAN模块中的生成器G, 产生一组合成配置集z并学习使生成的数
据像真实数据的概 率最大, 其中训练损失函数 可表示为
将生成器输出生成的配置数据与真实数据x一起输入GAN模块中的判别器, 学习使判断
出z是假数据、 x是真实数据的概 率最大, 其中训练损失函数为
权 利 要 求 书 1/2 页
2
CN 115454525 A
2采用ADMA优化器更新 生成网络与判别网络的参数。
7.如权利要求6所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特
征在于,
产生合成配置的过程, 具体包括下列步骤:
步骤1: 样本数据 X输入后, 自注意层注意力机制计算自己的注意权重, 即代表好的配置
的样本数据之间的关联, 首 先从输入的样本数据准备Query、 K ey和Value,
Query=Wq·Xi
Key=Wk·Xi
Value=Wv·Xi
其中, Wq, Wk, Wv为参数矩阵, 通过 学习得到, Xi为输入数据;
步骤2: 根据Query和K ey计算两者之间的相似性或相关性
Sim(Query,K ey i)=Query·Key i
步骤3: 使用softmax对步骤2中计算的结果进行归一化, 以获得权重系数ai=Softmax
(Simi);
步骤4: 输出加权系数 是值的加权和
步骤5: 自注意力层的输出输入到前馈神经网络, 产生 合成配置数据。
8.如权利要求6所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特
征在于,
所述判别器由三层前馈神经网络构成, 输入为合成数据和真实数据, 输出是判别器认
为每组数据是真实数据的概 率。权 利 要 求 书 2/2 页
3
CN 115454525 A
3
专利 基于Kafka的大数据系统访问量骤增时用户卡顿解决方法
安全报告 >
其他 >
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:12:45上传分享