(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211071086.8 (22)申请日 2022.09.01 (71)申请人 桂林电子科技大 学 地址 541004 广西壮 族自治区桂林市七 星 区金鸡路1号 (72)发明人 黄娅婷 李春海 李晓欢 姚荣彬  苏昭宇  (74)专利代理 机构 桂林文必达专利代理事务所 (特殊普通 合伙) 45134 专利代理师 张学平 (51)Int.Cl. G06F 9/445(2018.01) G06F 9/50(2006.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于Kafka的大数据系统访问量骤增时用户 卡顿解决方法 (57)摘要 本发明涉及性能调优技术领域, 具体涉及一 种基于Kafka的大数据系统访问量骤增时用户卡 顿解决方法, 使用默认配置在Kafka集群上运行 工作负载W, 并记录下所需时间T, 抽样获取配置 样本数据集并部署在Kafka集群上在相同的工作 负载W与工作时间T下运行, 选出性能较好的一部 分配置组合数据并作标准化处理作为样本数据 集; 然后将训练样本输入生 成器与判别器并同时 对他们进行训练, 训练完成后生成器生成N组配 置, 部署运行Kafka并记录每组配置的吞吐率, 选 出训练样 本与生成器生成的N组样 本中性能最好 的那组配置即为调优目标。 本发明能对Kafka消 息系统进行有效调优, 在相同工作环 境下相比默 认配置的性能得到提高。 权利要求书2页 说明书5页 附图1页 CN 115454525 A 2022.12.09 CN 115454525 A 1.一种基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特征在于, 包括下 列步骤: 使用默认配置在Kafka集群上运行工作负载W, 并记录下 所需时间T; 使用抽样方法获得初始样本, 并筛 选出训练样本; 将所述训练样本 输入GAN模块进行训练; 比较训练结果, 根据吞吐率选 定目标配置 。 2.如权利要求1所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特 征在于, 在使用抽样方法获得初始样本, 并筛选出训练样本的过程中, 首先使用抽样方法对每 个参数在取值范围内进行抽样并运行Kafka, 在相同的工作负载W与工作时间T下监控吞吐 率并与相 应组配置配对得到初始样本, 再对初始样本的吞吐率作排序, 选出吞吐率大 的配 置组合并标准 化作为训练样本 。 3.如权利要求2所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特 征在于, 筛选出训练样本的方法, 包括下列步骤: 筛选Kafka提供的1 1项对性能影响大的参数作为抽样目标; 使用拉丁超立方抽样方法对每个参数在取值范围内进行抽样, 抽取a组配置后运行 Kafka, 记录在工作负载W相同工作时间T下的性能吞吐率; 选择b组最 好性能的配置参数组合, 并对参数 数据集作标准 化处理作为训练样本 。 4.如权利要求3所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特 征在于, 参数数据集标准 化的具体方式是: 其中, μ为 参数的平均值, σ 为 参数的标准差 。 5.如权利要求1所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特 征在于, 所述GAN模块包括生成器G与判别器D, 使用三层神经网络作为生成器和判别器的架构 模型, 在生成器隐藏层中加入自注意力机制, 在训练时同时训练生成器与判别器。 6.如权利要求5所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特 征在于, 将所述训练样本 输入GAN模块进行训练的过程, 包括下列步骤: 将训练样本数据输入GAN模块中的生成器G, 产生一组合成配置集z并学习使生成的数 据像真实数据的概 率最大, 其中训练损失函数 可表示为 将生成器输出生成的配置数据与真实数据x一起输入GAN模块中的判别器, 学习使判断 出z是假数据、 x是真实数据的概 率最大, 其中训练损失函数为 权 利 要 求 书 1/2 页 2 CN 115454525 A 2采用ADMA优化器更新 生成网络与判别网络的参数。 7.如权利要求6所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特 征在于, 产生合成配置的过程, 具体包括下列步骤: 步骤1: 样本数据 X输入后, 自注意层注意力机制计算自己的注意权重, 即代表好的配置 的样本数据之间的关联, 首 先从输入的样本数据准备Query、 K ey和Value, Query=Wq·Xi Key=Wk·Xi Value=Wv·Xi 其中, Wq, Wk, Wv为参数矩阵, 通过 学习得到, Xi为输入数据; 步骤2: 根据Query和K ey计算两者之间的相似性或相关性 Sim(Query,K ey i)=Query·Key i 步骤3: 使用softmax对步骤2中计算的结果进行归一化, 以获得权重系数ai=Softmax (Simi); 步骤4: 输出加权系数 是值的加权和 步骤5: 自注意力层的输出输入到前馈神经网络, 产生 合成配置数据。 8.如权利要求6所述的基于Kafka的大数据系统访问量骤增时用户卡顿解决方法, 其特 征在于, 所述判别器由三层前馈神经网络构成, 输入为合成数据和真实数据, 输出是判别器认 为每组数据是真实数据的概 率。权 利 要 求 书 2/2 页 3 CN 115454525 A 3

.PDF文档 专利 基于Kafka的大数据系统访问量骤增时用户卡顿解决方法

安全报告 > 其他 > 文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Kafka的大数据系统访问量骤增时用户卡顿解决方法 第 1 页 专利 基于Kafka的大数据系统访问量骤增时用户卡顿解决方法 第 2 页 专利 基于Kafka的大数据系统访问量骤增时用户卡顿解决方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 13:12:45上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。