专利一种模型预训练方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111656897.X (22)申请日 2021.12.3 0 (65)同一申请的已公布的文献号申请公布号 CN 114297693 A (43)申请公布日 2022.04.08 (73)专利权人北京海泰方圆科技股份有限公司地址 100094 北京市海淀区东北旺西路8号中关村软件园9 号楼国际软件大厦E座一层、二层 (72)发明人张阳　安晓江　蒋红宇　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 专利代理师于丹 (51)Int.Cl. G06F 21/60(2013.01)G06F 21/62(2013.01) G06K 9/62(2022.01) (56)对比文件 CN 102571323 A,2012.07.1 1 CN 113011126 A,2021.0 6.22 审查员龚洁 (54)发明名称一种模型预训练方法、装置、电子设备及存储介质 (57)摘要本申请涉及信息安全技术领域，尤其涉及一种模型预训练方法、装置、电子设备及存储介质，响应于针对待训练模型的预训练指令，获取具有数据查看权限的客户端上传的密文语料，并确定密文语料中的各密文文本，密文语料为通过对待处理语料进行加密获得的，待处理语料为包含有敏感信息的文本；分别采用预设公开文本中的各明文字符，对各密文文本中的各密文字符进行替换，获得各替换后的文本，公开文本中包含有多个明文字符，公开文本为未包含有敏感信息的、公开的文本；基于各替换后的文本，对待训练模型进行训练，获得预训练模型，并基于预训练模型进行相应处理。这样，能够保证数据安全性的情况下训练和使用预训练模型。权利要求书5页说明书17页附图2页 CN 114297693 B 2022.11.18 CN 114297693 B 1.一种模型预训练方法，其特征在于，包括：响应于针对待训练模型的预训练指令，获取具有数据查看权限的客户端上传的密文语料，并确定所述密文语料中的各密文文本，其中，所述密文语料为通过对待处理语料进行加密获得的，所述待处理语料为包含有敏感信息的文本；分别采用预设公开文本中的各明文字符，对所述各密文文本中的各密文字符进行替换，获得各替换后的文本，其中，所述公开文本中包含有多个明文字符，所述公开文本为未包含有敏感信息的、公开的文本；基于所述各替换后的文本，对所述待训练模型进行训练，获得预训练模型，并基于所述预训练模型进行相应处理；其中，分别采用预设公开文本中的各明文字符，对所述各密文文本中的各密文字符进行替换，获得各替换后的文本，具体包括：确定所述各密文文本中各密文字符各自对应的密文字频，以及，确定预设公开文本中各明文字符各自对应的明文字频，其中，每个密文字频为相应的密文字符在所述各密文文本中的出现次数，每个明文字频为相应的明文字符在所述公开文本中的出现次数；基于各密文字频和各明文字频，分别将所述各密文文本中的各密文字符替换为相应的明文字符，获得各替换后的文本；其中，分别将所述各密文文本中的各密文字符替换为相应的明文字符，获得各替换后的文本，具体包括：按照所述各密文字符各自对应的密文字频，对所述各密文字符进行排序，获得排序后的各密文字符，以及，按照所述各明文字符各自对应的明文字频，对所述各明文字符进行排序，获得排序后的各明文字符；针对各密文文本，分别执行以下操作：分别基于任意一个密文文本中的各密文字符各自对应的顺序信息，从所述排序后的明文字符中，确定出与相应的密文字符的顺序信息相同的明文字符，并采用确定出的明文字符，对相应的密文字符进行替换，获得替换后的文本。 2.如权利要求1所述的方法，其特征在于，确定所述密文语料中的各密文文本，具体包括：基于预设的段落结尾标识，对所述密文语料进行分段，获得各密文段落；基于预设的分句加密字符，分别对所述各密文段落进行分句，获得相应的各密文文本。 3.如权利要求1所述的方法，其特征在于，分别采用预设公开文本中的各明文字符，对所述各密文文本中的各密文字符进行替换，获得各替换后的文本，具体包括：基于已训练的密文字向量模型，分别以所述各密文字符为输入参数，确定相应的密文字符对应的密文字向量，以及，基于已训练的密文字向量模型，分别以所述各明文字符为输入参数，确定相应的明文字符对应的明文字向量；针对各密文文本，分别执行以下操作：分别基于任意一个密文文本中的各密文文本各自对应的密文字向量，与所述各明文字向量之间的向量相似度，确定出满足向量相似度条件的明文字符，并采用确定出的明文字符，对相应的密文字符进行替换，获得替换后的文本。 4.如权利要求1所述的方法，其特征在于，基于所述各替换后的文本，对所述待训练模权　利　要　求　书 1/5 页 2 CN 114297693 B 2型进行训练，获得预训练模型，具体包括：分别对所述各替换后的文本进行掩码处理，获得各掩码文本；分别确定所述各掩码文本各自对应的掩码文本向量；分别将所述各掩码文本向量输入至待训练模型中，基于所述各掩码文本向量，对所述待训练模型进行训练，直至满足预设的训练截止条件，获得训练完成的预训练模型。 5.如权利要求4所述的方法，其特征在于，分别将所述各掩码文本向量输入至待训练模型中，基于所述各掩码文本向量，对所述待训练模型进行训练，直至满足预设的训练截止条件，获得训练完成的预训练模型，具体包括：针对所述各掩码文本向量，分别执行以下操作：确定任意一掩码文本向量的掩码文本中，各掩码位置各自对应的预设数个明文字符，其中，所述预设数个明文字符是根据掩码位置上的明文字符对应的明文字向量，从与该明文字符相似度最高的预设数个明文字符中选择出的，或，所述预设数个明文字符是根据掩码位置上的明文字符对应的顺序信息，从排列在该明文字符的前预设数个明文字符和后预设数个明文字符确定出的；分别基于该掩码文本向量和预设数个明文字符各自对应的明文字向量，生成各训练样本；将所述各训练样本输入至所述待训练模型中，通过注意力机制，计算以所述预设数个明文字符为输出参数的损失值，并基于损失值，对所述待训练模型的各项模型参数进行调整，获得收敛于期望明文字符的模型参数。 6.如权利要求1 ‑5任一项所述的方法，其特征在于，基于所述预训练模型进行相应处理，具体包括：将所述预训练模型发送至具有数据查看权限的客户端，以使所述客户端采用所述预训练模型进行文本处理。 7.一种模型预训练方法，其特征在于，包括：对获得的待处理语料进行加密，获得所述待处理语料对应的密文语料；将所述密文语料发送至训练客户端，以使所述训练客户端基于所述密文语料，获得所述密文语料中各密文文本各自对应的替换后的文本，并基于各替换后的文本，对待训练模型进行训练，获得预训练模型，并将所述预训练模型返回至具有数据查看权限的客户端；基于接收到的所述预训练模型进行相应处理；其中，各替换后的文本为确定所述各密文文本中各密文字符各自对应的密文字频，以及，确定预设公开文本中各明文字符各自对应的明文字频，基于各密文字频和各明文字频，按照所述各密文字符各自对应的密文字频，对所述各密文字符进行排序，获得排序后的各密文字符，以及，按照所述各明文字符各自对应的明文字频，对所述各明文字符进行排序，获得排序后的各明文字符；针对各密文文本，分别执行以下操作：分别基于任意一个密文文本中的各密文字符各自对应的顺序信息，从所述排序后的明文字符中，确定出与相应的密文字符的顺序信息相同的明文字符，并采用确定出的明文字符，对相应的密文字符进行替换获得的，其中，每个密文字频为相应的密文字符在所述各密文文本中的出现次数，每个明文字频为相应的明文字符在所述公开文本中的出现次数。 8.如权利要求7所述的方法，其特征在于，对获得的待处理语料进行加密，获得所述待权　利　要　求　书 2/5 页 3 CN 114297693 B 3

专利 一种模型预训练方法、装置、电子设备及存储介质

专利一种模型预训练方法、装置、电子设备及存储介质