(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210573495.1 (22)申请日 2022.05.25 (65)同一申请的已公布的文献号 申请公布号 CN 114662156 A (43)申请公布日 2022.06.24 (73)专利权人 蓝象智联 (杭州) 科技有限公司 地址 311100 浙江省杭州市余杭区仓前街 道鼎创财富中心 2幢3012室 (72)发明人 裴阳 毛仁歆 刘文博 马煜翔  刘洋  (74)专利代理 机构 杭州天麟知识产权代理事务 所(特殊普通 合伙) 33374 专利代理师 占宇 (51)Int.Cl. G06F 21/62(2013.01)G06F 17/18(2006.01) G06Q 40/02(2012.01) (56)对比文件 CN 114362948 A,202 2.04.15 CN 112464287 A,2021.0 3.09 CN 114401079 A,202 2.04.26 WO 2021120888 A1,2021.0 6.24 EP 3863003 A1,2021.08.1 1 Yongkai Fan etc. .Privacy preservi ng based logistic regres sion on big data. 《Journal of Netw ork and Computer Applications》 .2020, 蒋瀚等.隐私保护机 器学习的密码学方法. 《电子与信息学报》 .2020,(第0 5期), 审查员 岳孟果 (54)发明名称 一种基于匿名化数据的纵向逻辑回归建模 方法 (57)摘要 本发明公开了一种基于匿名化数据的纵向 逻辑回归建模 方法。 它包括以下步骤: 发起方、 参 与方分别构建同样的纵向逻辑回归模型并初始 化; 发起方、 参与方联合计算出每个匿名样本对 应的预测值Y, 发起方得到预测值分片YA, 参与方 得到预测值分片YB; 发起方、 参与方分别计算残 差分片ΔyA、 残差分片ΔyB; 发起方、 参与方各自 计算自身持有的数据特征分片对应的权重系数 的最新值并赋值; 重复上述步骤T次, 完成纵向逻 辑回归模型建模。 本发明可以使用秘密分享密文 状态下的数据特征分片, 在建模 过程中没有泄露 中间结果, 大 大提高了建模安全性。 权利要求书2页 说明书9页 附图1页 CN 114662156 B 2022.09.06 CN 114662156 B 1.一种基于匿名化数据的纵向逻辑回归建模方法, 用于金融机构联合风控建模, 发起 方持有K个匿名样本对应的样本数据集XA及标签值分片yA, 样本数据集XA中包含n个秘密分 享密文状态下的数据特征分片, 参与方持有相同的K个匿名样本对应 的样本数据集XB及标 签值分片yB, 样本数据集 XB中包含n个秘密分享密文 状态下的数据特征 分片, 其特征在于, 包 括以下步骤: S1: 发起方、 参与方分别构建同样的纵向逻辑回归模型, 初始化样本数据集XA中每个数 据特征分片对应的权 重系数、 样本数据集XB中每个数据特 征分片对应的权 重系数; S2: 发起方、 参与方联合计算出每个匿名样本对应的预测值Y, 发起方得到预测值分片 YA, 参与方得到预测值分片YB, Y=YA+YB; S3: 发起方将每个匿名样本对应的标签值分片yA减去对应的预测值分片YA得到对应的 残差分片ΔyA, 参与方将每个匿名样本对应的标签值分片yB减去对应的预测值分片YB得到 对应的残差分片ΔyB; S4: 发起方根据学习率α、 匿名样本个数K、 每个匿名样本对应的残差分片ΔyA计算出样 本数据集XA中每个数据特 征分片对应的权 重系数的最 新值, 给这些权 重系数赋予最新值; 参与方根据学习率α、 匿名样本个 数K、 每个匿名样本对应的残差分片ΔyB计算出样本 数 据集XB中每个数据特 征分片对应的权 重系数的最 新值, 给这些权 重系数赋予最新值; S5: 重复执 行S2至S4 步骤T次, 完成纵向逻辑回归 模型建模; 所述K个匿名样本的编号分别 为1, 2……K, 样本数据集XA中的n个数据特征分片依次标 记为XA1、 XA2……XAn, n≥1, 则编号为i的匿名样本对应的样本数据集为XA(i), 1≤i≤K, 样本 数据集XA(i)的结构为XA(i)= {XA1(i)、 XA2(i)、……XAn(i)} , 样本数据集XB中的n个数据特征 分片依次标记为XB1、 XB2……XBn, 则编号为i的匿名样本对应的样本数据集为XB(i), 样本数 据集XB(i)的结构为XB(i)= {XB1(i)、 XB2(i)、……XBn (i)} ; 所述步骤S2中发起方、 参与方联合计算出编号为i的匿名样本对应的预测值Y(i), 发起 方得到预测值分片YA(i), 参与方 得到预测值分片YB(i)的方法包括以下步骤: N1: 发起方、 参与方协商生成参数a、 参数b、 参数c, a*b=c, 发起方持有参数分片aA、 参数 分片bA、 参数分片cA, 参与方持有参数分片aB、 参数分片bB、 参数分片cB, a=aA+aB, b=bA+bB, c=  cA+cB; N2: 发起方计算出WAj‑aA、 XAj(i)‑bA并将其发送给参与方, 参与方计算出WBj‑aB、 XBj(i)‑ bB并将其发送给发起方; 发起方、 参与方都计算出 Fj =(XAj(i)‑bA)+(XBj(i)‑bB), Ej =(WAj‑aA) + (WBj‑aB), 发起方计算出中间参数分片Z(i)A: Z(i)A= Z(i)A1+Z(i)A2……+Z(i)An, Z(i)Aj=Fj*aA+Ej*bA+cA; 参与方计算出中间参数分片Z(i)B: Z(i)B= Z(i)B1+Z(i)B2……+Z(i)Bn, Z(i)Bj=Ej*Fj+Fj*aB+Ej*bB+cB; 其中, 1≤j≤n, XAj(i)表示编号为i的匿名样本对应的样本数据 集为XA(i)中的第j个数 据特征分片, XBj(i)表示编号为i的匿名样 本对应的样 本数据集为XB(i)中的第j 个数据特征 分片, WAj表示样本数据集XA中的第j个数据特征分片XAj对应的权重系数, WBj表示样本数据权 利 要 求 书 1/2 页 2 CN 114662156 B 2集XB中的第j个数据特 征分片XBj对应的权 重系数; N3: 发起方、 参与方根据中间参数分片Z(i)A、 中间参数分片Z(i)B采用秘密分享的乘法 协议计算出各自的预测值分片, 发起方得到预测值分片YA(i), 参与方得到预测值分片YB (i), YA(i)+YB(i)满足如下公式: YA(i)+YB(i)=sigmo id(Z(i)A+Z(i)B), 。 2.根据权利要求1所述的一种基于匿名化数据的纵向逻辑 回归建模方法, 其特征在于, 所述步骤S3中发起方计算出编号 为i的匿名样本对应的残差分片ΔyA(i)的公式如下: ΔyA(i)=yA(i)‑YA(i), yA(i)表示编号 为i的匿名样本对应的标签值分片yA; 所述步骤S3中参与方计算出编号 为i的匿名样本对应的残差分片ΔyB(i)的公式如下: ΔyB(i)=yB(i)‑YB(i), yB(i)表示编号 为i的匿名样本对应的标签值分片yB。 3.根据权利要求2所述的一种基于匿名化数据的纵向逻辑 回归建模方法, 其特征在于, 所述步骤S4中发起方给样本数据集 XA中第j个数据特征 分片XAj对应的权重系数WAj赋予最新 值的公式如下: ; 所述步骤S4中参与方给样本数据集XB中第j个数据特征分片XBj对应的权重系数WBj赋予 最新值的公式如下: 。 4.根据权利要求1所述的一种基于匿名化数据的纵向逻辑 回归建模方法, 其特征在于, 所述步骤S1中初始化样本数据集XA中第j个数据特征分片XAj对应的权重系数、 样本数据集 XB中第j个数据特 征分片XBj对应的权 重系数的方法如下: 发起方初始化第j个数据特征对应的权重系数Wj, 将权重系数Wj拆分为权重系数分片 WAj、 权重系数分片WBj, 将权重系数分片WBj发送给参与方, 发起方将权重系数分片WAj作为样 本数据集XA中第j个数据 特征分片XAj对应的权重系数, 参与 方将权重系数分片WBj作为样本 数据集XB中第j个数据特 征分片XBj对应的权 重系数。权 利 要 求 书 2/2 页 3 CN 114662156 B 3

.PDF文档 专利 一种基于匿名化数据的纵向逻辑回归建模方法

安全报告 > 其他 > 文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于匿名化数据的纵向逻辑回归建模方法 第 1 页 专利 一种基于匿名化数据的纵向逻辑回归建模方法 第 2 页 专利 一种基于匿名化数据的纵向逻辑回归建模方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-02-07 20:39:02上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
热门文档
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。