专利 一种基于匿名化数据的纵向逻辑回归建模方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210573495.1 (22)申请日 2022.05.25 (65)同一申请的已公布的文献号申请公布号 CN 114662156 A (43)申请公布日 2022.06.24 (73)专利权人蓝象智联（杭州）科技有限公司地址 311100 浙江省杭州市余杭区仓前街道鼎创财富中心 2幢3012室 (72)发明人裴阳　毛仁歆　刘文博　马煜翔　刘洋　 (74)专利代理机构杭州天麟知识产权代理事务所(特殊普通合伙) 33374 专利代理师占宇 (51)Int.Cl. G06F 21/62(2013.01)G06F 17/18(2006.01) G06Q 40/02(2012.01) (56)对比文件 CN 114362948 A,202 2.04.15 CN 112464287 A,2021.0 3.09 CN 114401079 A,202 2.04.26 WO 2021120888 A1,2021.0 6.24 EP 3863003 A1,2021.08.1 1 Yongkai Fan etc. .Privacy preservi ng based logistic regres sion on big data. 《Journal of Netw ork and Computer Applications》 .2020, 蒋瀚等.隐私保护机器学习的密码学方法. 《电子与信息学报》 .2020,(第0 5期), 审查员岳孟果 (54)发明名称一种基于匿名化数据的纵向逻辑回归建模方法 (57)摘要本发明公开了一种基于匿名化数据的纵向逻辑回归建模方法。它包括以下步骤：发起方、参与方分别构建同样的纵向逻辑回归模型并初始化；发起方、参与方联合计算出每个匿名样本对应的预测值Y，发起方得到预测值分片YA，参与方得到预测值分片YB；发起方、参与方分别计算残差分片ΔyA、残差分片ΔyB；发起方、参与方各自计算自身持有的数据特征分片对应的权重系数的最新值并赋值；重复上述步骤T次，完成纵向逻辑回归模型建模。本发明可以使用秘密分享密文状态下的数据特征分片，在建模过程中没有泄露中间结果，大大提高了建模安全性。权利要求书2页说明书9页附图1页 CN 114662156 B 2022.09.06 CN 114662156 B 1.一种基于匿名化数据的纵向逻辑回归建模方法，用于金融机构联合风控建模，发起方持有K个匿名样本对应的样本数据集XA及标签值分片yA，样本数据集XA中包含n个秘密分享密文状态下的数据特征分片，参与方持有相同的K个匿名样本对应的样本数据集XB及标签值分片yB，样本数据集 XB中包含n个秘密分享密文状态下的数据特征分片，其特征在于，包括以下步骤： S1：发起方、参与方分别构建同样的纵向逻辑回归模型，初始化样本数据集XA中每个数据特征分片对应的权重系数、样本数据集XB中每个数据特征分片对应的权重系数； S2：发起方、参与方联合计算出每个匿名样本对应的预测值Y，发起方得到预测值分片 YA，参与方得到预测值分片YB， Y=YA+YB； S3：发起方将每个匿名样本对应的标签值分片yA减去对应的预测值分片YA得到对应的残差分片ΔyA，参与方将每个匿名样本对应的标签值分片yB减去对应的预测值分片YB得到对应的残差分片ΔyB； S4：发起方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片ΔyA计算出样本数据集XA中每个数据特征分片对应的权重系数的最新值，给这些权重系数赋予最新值；参与方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片ΔyB计算出样本数据集XB中每个数据特征分片对应的权重系数的最新值，给这些权重系数赋予最新值； S5：重复执行S2至S4 步骤T次，完成纵向逻辑回归模型建模；所述K个匿名样本的编号分别为1， 2……K，样本数据集XA中的n个数据特征分片依次标记为XA1、 XA2……XAn， n≥1，则编号为i的匿名样本对应的样本数据集为XA(i)， 1≤i≤K，样本数据集XA(i)的结构为XA(i)= ｛XA1(i)、 XA2(i)、……XAn(i)｝，样本数据集XB中的n个数据特征分片依次标记为XB1、 XB2……XBn，则编号为i的匿名样本对应的样本数据集为XB(i)，样本数据集XB(i)的结构为XB(i)= ｛XB1(i)、 XB2(i)、……XBn (i)｝；所述步骤S2中发起方、参与方联合计算出编号为i的匿名样本对应的预测值Y(i)，发起方得到预测值分片YA(i)，参与方得到预测值分片YB(i)的方法包括以下步骤： N1：发起方、参与方协商生成参数a、参数b、参数c， a*b=c，发起方持有参数分片aA、参数分片bA、参数分片cA，参与方持有参数分片aB、参数分片bB、参数分片cB， a=aA+aB， b=bA+bB， c= cA+cB； N2：发起方计算出WAj‑aA、 XAj(i)‑bA并将其发送给参与方，参与方计算出WBj‑aB、 XBj(i)‑ bB并将其发送给发起方；发起方、参与方都计算出 Fj =(XAj(i)‑bA)+(XBj(i)‑bB)， Ej =(WAj‑aA) + (WBj‑aB)，发起方计算出中间参数分片Z(i)A： Z(i)A= Z(i)A1+Z(i)A2……+Z(i)An， Z(i)Aj=Fj*aA+Ej*bA+cA；参与方计算出中间参数分片Z(i)B： Z(i)B= Z(i)B1+Z(i)B2……+Z(i)Bn， Z(i)Bj=Ej*Fj+Fj*aB+Ej*bB+cB；其中， 1≤j≤n， XAj(i)表示编号为i的匿名样本对应的样本数据集为XA(i)中的第j个数据特征分片， XBj(i)表示编号为i的匿名样本对应的样本数据集为XB(i)中的第j 个数据特征分片， WAj表示样本数据集XA中的第j个数据特征分片XAj对应的权重系数， WBj表示样本数据权　利　要　求　书 1/2 页 2 CN 114662156 B 2集XB中的第j个数据特征分片XBj对应的权重系数； N3：发起方、参与方根据中间参数分片Z(i)A、中间参数分片Z(i)B采用秘密分享的乘法协议计算出各自的预测值分片，发起方得到预测值分片YA(i)，参与方得到预测值分片YB (i)， YA(i)+YB(i)满足如下公式： YA(i)+YB(i)=sigmo id(Z(i)A+Z(i)B)，。 2.根据权利要求1所述的一种基于匿名化数据的纵向逻辑回归建模方法，其特征在于，所述步骤S3中发起方计算出编号为i的匿名样本对应的残差分片ΔyA(i)的公式如下： ΔyA(i)=yA(i)‑YA(i)， yA(i)表示编号为i的匿名样本对应的标签值分片yA；所述步骤S3中参与方计算出编号为i的匿名样本对应的残差分片ΔyB(i)的公式如下： ΔyB(i)=yB(i)‑YB(i)， yB(i)表示编号为i的匿名样本对应的标签值分片yB。 3.根据权利要求2所述的一种基于匿名化数据的纵向逻辑回归建模方法，其特征在于，所述步骤S4中发起方给样本数据集 XA中第j个数据特征分片XAj对应的权重系数WAj赋予最新值的公式如下：；所述步骤S4中参与方给样本数据集XB中第j个数据特征分片XBj对应的权重系数WBj赋予最新值的公式如下：。 4.根据权利要求1所述的一种基于匿名化数据的纵向逻辑回归建模方法，其特征在于，所述步骤S1中初始化样本数据集XA中第j个数据特征分片XAj对应的权重系数、样本数据集 XB中第j个数据特征分片XBj对应的权重系数的方法如下：发起方初始化第j个数据特征对应的权重系数Wj，将权重系数Wj拆分为权重系数分片 WAj、权重系数分片WBj，将权重系数分片WBj发送给参与方，发起方将权重系数分片WAj作为样本数据集XA中第j个数据特征分片XAj对应的权重系数，参与方将权重系数分片WBj作为样本数据集XB中第j个数据特征分片XBj对应的权重系数。权　利　要　求　书 2/2 页 3 CN 114662156 B 3

专利 一种基于匿名化数据的纵向逻辑回归建模方法

专利一种基于匿名化数据的纵向逻辑回归建模方法