专利 基于Kafka的大数据系统访问量骤增时用户卡顿解决方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211071086.8 (22)申请日 2022.09.01 (71)申请人桂林电子科技大学地址 541004 广西壮族自治区桂林市七星区金鸡路1号 (72)发明人黄娅婷　李春海　李晓欢　姚荣彬　苏昭宇　 (74)专利代理机构桂林文必达专利代理事务所 (特殊普通合伙) 45134 专利代理师张学平 (51)Int.Cl. G06F 9/445(2018.01) G06F 9/50(2006.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于Kafka的大数据系统访问量骤增时用户卡顿解决方法 (57)摘要本发明涉及性能调优技术领域，具体涉及一种基于Kafka的大数据系统访问量骤增时用户卡顿解决方法，使用默认配置在Kafka集群上运行工作负载W，并记录下所需时间T，抽样获取配置样本数据集并部署在Kafka集群上在相同的工作负载W与工作时间T下运行，选出性能较好的一部分配置组合数据并作标准化处理作为样本数据集；然后将训练样本输入生成器与判别器并同时对他们进行训练，训练完成后生成器生成N组配置，部署运行Kafka并记录每组配置的吞吐率，选出训练样本与生成器生成的N组样本中性能最好的那组配置即为调优目标。本发明能对Kafka消息系统进行有效调优，在相同工作环境下相比默认配置的性能得到提高。权利要求书2页说明书5页附图1页 CN 115454525 A 2022.12.09 CN 115454525 A 1.一种基于Kafka的大数据系统访问量骤增时用户卡顿解决方法，其特征在于，包括下列步骤：使用默认配置在Kafka集群上运行工作负载W，并记录下所需时间T；使用抽样方法获得初始样本，并筛选出训练样本；将所述训练样本输入GAN模块进行训练；比较训练结果，根据吞吐率选定目标配置。 2.如权利要求1所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法，其特征在于，在使用抽样方法获得初始样本，并筛选出训练样本的过程中，首先使用抽样方法对每个参数在取值范围内进行抽样并运行Kafka，在相同的工作负载W与工作时间T下监控吞吐率并与相应组配置配对得到初始样本，再对初始样本的吞吐率作排序，选出吞吐率大的配置组合并标准化作为训练样本。 3.如权利要求2所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法，其特征在于，筛选出训练样本的方法，包括下列步骤：筛选Kafka提供的1 1项对性能影响大的参数作为抽样目标；使用拉丁超立方抽样方法对每个参数在取值范围内进行抽样，抽取a组配置后运行 Kafka，记录在工作负载W相同工作时间T下的性能吞吐率；选择b组最好性能的配置参数组合，并对参数数据集作标准化处理作为训练样本。 4.如权利要求3所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法，其特征在于，参数数据集标准化的具体方式是：其中， μ为参数的平均值， σ 为参数的标准差。 5.如权利要求1所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法，其特征在于，所述GAN模块包括生成器G与判别器D，使用三层神经网络作为生成器和判别器的架构模型，在生成器隐藏层中加入自注意力机制，在训练时同时训练生成器与判别器。 6.如权利要求5所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法，其特征在于，将所述训练样本输入GAN模块进行训练的过程，包括下列步骤：将训练样本数据输入GAN模块中的生成器G，产生一组合成配置集z并学习使生成的数据像真实数据的概率最大，其中训练损失函数可表示为将生成器输出生成的配置数据与真实数据x一起输入GAN模块中的判别器，学习使判断出z是假数据、 x是真实数据的概率最大，其中训练损失函数为权　利　要　求　书 1/2 页 2 CN 115454525 A 2采用ADMA优化器更新生成网络与判别网络的参数。 7.如权利要求6所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法，其特征在于，产生合成配置的过程，具体包括下列步骤：步骤1：样本数据 X输入后，自注意层注意力机制计算自己的注意权重，即代表好的配置的样本数据之间的关联，首先从输入的样本数据准备Query、 K ey和Value， Query＝Wq·Xi Key＝Wk·Xi Value＝Wv·Xi 其中， Wq， Wk， Wv为参数矩阵，通过学习得到， Xi为输入数据；步骤2：根据Query和K ey计算两者之间的相似性或相关性 Sim(Query,K ey i)＝Query·Key i 步骤3：使用softmax对步骤2中计算的结果进行归一化，以获得权重系数ai＝Softmax (Simi)；步骤4：输出加权系数是值的加权和步骤5：自注意力层的输出输入到前馈神经网络，产生合成配置数据。 8.如权利要求6所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法，其特征在于，所述判别器由三层前馈神经网络构成，输入为合成数据和真实数据，输出是判别器认为每组数据是真实数据的概率。权　利　要　求　书 2/2 页 3 CN 115454525 A 3

专利 基于Kafka的大数据系统访问量骤增时用户卡顿解决方法

专利基于Kafka的大数据系统访问量骤增时用户卡顿解决方法