说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211274810.7 (22)申请日 2022.10.18 (71)申请人 上海零数众合信息科技有限公司 地址 200135 上海市浦东 新区中国(上海) 自由贸易试验区 峨山路101号C 3幢 (72)发明人 孙银银 李仲平  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 康欢欢 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) (54)发明名称 一种去中心化的联邦聚类学习方法、 装置、 设备及介质 (57)摘要 本发明公开了一种去中心化的联邦聚类学 习方法、 装置、 设备及介质。 该方法包括: 由任务 发起方执行, 基于预设聚类算法和预设加密算 法, 与至少两个数据方进行交互, 确定最优初始 聚类中心和至少两个初始簇; 在对最优初始聚类 中心和初始簇迭代更新的过程中, 确定联合数据 集中的各样 本到各个簇的距离, 并基于预设加密 算法, 获取联合数据集中的各样 本相对于本次聚 类中心的总距离, 根据总距离, 与至少两个数据 方交互, 确定三方的总距离; 根据总距离, 确定是 否满足预设的迭代终止条件, 若是, 则确定最后 一次迭代更新后的聚类中心为最终聚类中心。 可 以在保证任务发起方和数据方隐私安全的前提 下, 实现高效的联合聚类学习。 权利要求书3页 说明书11页 附图3页 CN 115545215 A 2022.12.30 CN 115545215 A 1.一种去中心化的联邦聚类学习方法, 其特 征在于, 由任务发起方 执行, 包括: 基于预设聚类算法和预设加密算法, 与至少两个数据方进行交互, 确定最优初始聚类 中心和至少两个初始簇; 数据方本地数据集中的样本与任务 发起方本地数据集中的样本编 号相同, 样本特 征不同; 在对最优初始聚类中心和初始簇迭代更新的过程中, 确定任务发起方和至少两个数据 方组成的联合数据集中的各样本到各个簇的距离, 并基于预设加密算法, 获取联合数据集 中的各样本相对于 本次聚类中心的总距离, 并根据所述总距离, 生成本次聚类结果; 将所述本次聚类结果向至少两个数据方发送, 用于指示各数据方根据本次聚类结果, 更新本地存储的聚类中心, 并计算本次更新的聚类中心与上一次迭代的聚类中心之 间的距 离; 基于预设加密算法, 获取各数据方计算的本次更新的聚类中心与上一 次迭代的聚类中 心之间的距离, 确定联合数据集对应的本次更新的聚类中心与上一次迭代的聚类中心之间 的总距离; 根据所述联合数据集对应的本次更新的聚类中心与上一次迭代的聚类中心之间的总 距离, 确定是否满足预设的迭代终止条件, 若是, 则确定最后一次迭代更新后的聚类中心 为 最终聚类中心。 2.根据权利要求1所述的方法, 其特征在于, 基于预设聚类算法和预设加密算法, 与至 少两个数据方进行交 互, 确定最优初始聚类中心和至少两个初始簇, 包括: 基于预设聚类算法, 随机获取一个样本的编号以作为目标编号, 将所述目标编号发送 给至少两个数据方, 用于指示各数据方将目标编号对应的目标样本作为第一个簇中心并计 算各样本 到所述第一簇中心的距离; 基于预设加密算法, 获取联合数据集中的各样本到第一个簇中心 的总距离, 选择最大 距离的样本作为第二个簇中心, 计算联合数据集中的所有样本到第二个簇中心的总距离并 确定第三个簇中心; 基于第三个簇中心, 与至少两个数据方交互, 进行迭代更新, 若检测到确定出预设个数 的簇, 则确定迭代终止; 根据确定的预设个数的簇的总距离, 确定最优初始聚类中心和至少两个初始簇 。 3.根据权利要求2所述的方法, 其特征在于, 根据确定的预设个数的簇的总距离, 确定 最优初始聚类中心和至少两个初始簇, 包括: 根据对应预设个数的簇的总距离, 绘制以簇为自变量, 各簇的距离平方和为因变量的 曲线; 确定曲线中拐点位置对应的簇为初始簇, 并根据各初始簇的簇中心, 确定最优初始聚 类中心。 4.根据权利要求1所述的方法, 其特征在于, 确定任务发起方和至少两个数据方组成的 联合数据集中的各样本到各个簇的距离, 并基于预设加密算法, 获取联合数据集中的各样 本相对于 本次聚类中心的总距离, 包括: 根据样本相对于簇 中心的和方差矩阵, 确定任务发起方和至少两个数据方组成的联合 数据集中的各样本 到各个簇的距离; 基于预设加密算法, 与至少两个数据方进行交互, 根据样本相对于簇中心的距离矩阵,权 利 要 求 书 1/3 页 2 CN 115545215 A 2确定联合数据集中的各样本相对于 本次聚类中心的总距离 。 5.根据权利要求1所述的方法, 其特 征在于, 还 包括: 确定任务发起方和至少两个数据方组成的联合数据集中的各样本相对于最优初始聚 类中心的初始总距离矩阵; 根据所述初始总距离矩阵, 生成初始聚类结果, 将初始聚类结果发送给各数据 方, 用于 指示各数据方根据初始聚类结果, 计算各个簇样本的平均值, 对本地存储的聚类中心进行 更新。 6.根据权利要求1所述的方法, 其特征在于, 根据 所述联合数据集对应的本次更新的聚 类中心与上一次迭代的聚类中心之 间的总距离, 确定是否满足预设的迭代终止条件, 若是, 则确定最后一次迭代更新后的聚类中心为 最终聚类中心, 包括: 根据所述联合数据集对应的本次更新的聚类中心与上一次迭代的聚类中心之间的总 距离, 若检测到该总距离小于预设距离阈值, 或迭代次数大于预设的最大迭代次数, 则确定 满足预设的迭代终止条件; 确定最后一次迭代更新后的聚类中心为 最终聚类中心。 7.一种去中心化的联邦聚类学习 装置, 其特征在于, 所述装置配置于任务发起方中, 包 括: 初始确定模块, 用于基于预设聚类算法和预设加密算法, 与至少两个数据 方进行交互, 确定最优初始聚类中心和至少两个初始簇; 所述数据方本地数据集中的样本与任务 发起方 本地数据集中的样本编号相同, 样本特 征不同; 生成模块, 用于在对最优初始聚类中心和初始簇迭代更新的过程中, 确定任务发起方 和至少两个数据方组成的联合数据集中的各样本到各个簇的距离, 并基于预设加密算法, 获取联合数据集中的各样本相对于本次聚类中心的总距离, 并根据所述总距离, 生成本次 聚类结果; 发送模块, 用于将所述本次聚类结果向至少两个数据方发送, 用于指示各数据方根据 本次聚类结果, 更新本地存储的聚类中心, 并计算本次更新的聚类中心与上一次迭代的聚 类中心之间的距离; 确定模块, 用于基于预设加密算法, 获取各数据方计算的本次更新的聚类中心与上一 次迭代的聚类中心之 间的距离, 确定联合数据集对应的本次更新的聚类中心与上一次迭代 的聚类中心之间的总距离; 判断模块, 用于根据 所述联合数据集对应的本次更新的聚类中心与 上一次迭代的聚类 中心之间的总距离, 确定是否满足预设的迭代终止条件, 若 是, 则确定最后一次迭代更新后 的聚类中心为 最终聚类中心。 8.根据权利要求7 所述的装置, 其特 征在于, 所述初始确定模块包括: 发送单元, 用于基于预设聚类算法, 随机获取一个样本的编 号以作为目标编号, 将所述 目标编号 发送给至少两个数据方, 用于指示各数据方将目标编号对应的目标样本作为第一 个簇中心并计算各样本 到所述第一簇中心的距离; 计算单元, 用于基于预设加密算法, 获取联合数据集中的各样本到第一个簇中心 的总 距离, 选择最大距离的样本作为第二个簇中心, 计算联合数据集中的所有样本到第二个簇 中心的总距离并确定第三个簇中心;权 利 要 求 书 2/3 页 3 CN 115545215 A 3

.PDF文档 专利 一种去中心化的联邦聚类学习方法、装置、设备及介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种去中心化的联邦聚类学习方法、装置、设备及介质 第 1 页 专利 一种去中心化的联邦聚类学习方法、装置、设备及介质 第 2 页 专利 一种去中心化的联邦聚类学习方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:40:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。