全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111656897.X (22)申请日 2021.12.3 0 (65)同一申请的已公布的文献号 申请公布号 CN 114297693 A (43)申请公布日 2022.04.08 (73)专利权人 北京海泰方圆科技股份有限公司 地址 100094 北京市海淀区东北旺西路8号 中关村软件园9 号楼国际软件大厦E座 一层、 二层 (72)发明人 张阳 安晓江 蒋红宇  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 于丹 (51)Int.Cl. G06F 21/60(2013.01)G06F 21/62(2013.01) G06K 9/62(2022.01) (56)对比文件 CN 102571323 A,2012.07.1 1 CN 113011126 A,2021.0 6.22 审查员 龚洁 (54)发明名称 一种模型预训练方法、 装置、 电子设备及存 储介质 (57)摘要 本申请涉及信息安全技术领域, 尤其涉及一 种模型预训练方法、 装置、 电子设备及存储介质, 响应于针对待训练模型的预训练指令, 获取具有 数据查看权限的客户端上传的密文语料, 并确定 密文语料中的各密文文本, 密文语料为通过对待 处理语料进行加密获得的, 待处理语料为包含有 敏感信息的文本; 分别采用预设公开文本中的各 明文字符, 对各密文文本中的各密文字符进行替 换, 获得各替换后的文本, 公开文本中包含有多 个明文字符, 公开文本为未包含有敏感信息的、 公开的文本; 基于各替换后的文本, 对待训练模 型进行训练, 获得预训练模型, 并基于预训练模 型进行相应处理。 这样, 能够保证数据安全性的 情况下训练和使用预训练模型。 权利要求书5页 说明书17页 附图2页 CN 114297693 B 2022.11.18 CN 114297693 B 1.一种模型 预训练方法, 其特 征在于, 包括: 响应于针对待训练模型的预训练指令, 获取具有数据查看权限的客户端上传的密文语 料, 并确定所述密 文语料中的各密 文文本, 其中, 所述密 文语料为通过对待处理语料进行加 密获得的, 所述待处 理语料为包 含有敏感信息的文本; 分别采用预设公开文本中的各明文字符, 对所述各密文文本中的各密文字符进行替 换, 获得各替换后的文本, 其中, 所述公开文本中包含有多个明文字符, 所述公开文本为未 包含有敏感信息的、 公开的文本; 基于所述各替换后的文本, 对所述待训练模型进行训练, 获得预训练模型, 并基于所述 预训练模型进行相应处 理; 其中, 分别采用预设公开文本中的各明文字符, 对所述各密文文本中的各密文字符进 行替换, 获得 各替换后的文本, 具体包括: 确定所述各密文文本中各密文字符各自对应的密文字频, 以及, 确定预设公开文本中 各明文字符各自对应的明文字频, 其中, 每个密文字频为相 应的密文字符在所述各密文文 本中的出现次数, 每 个明文字频为相应的明文字符在所述公开文本中的出现次数; 基于各密文字频和各明文字频, 分别将所述各密文文本中的各密文字符替换为相应的 明文字符, 获得 各替换后的文本; 其中, 分别将所述各密文文本中的各密文字符替换为相应的明文字符, 获得各替换后 的文本, 具体包括: 按照所述各密文字符各自对应的密文字频, 对所述各密文字符进行排序, 获得排序后 的各密文字符, 以及, 按照所述各明文字符各自对应的明文字频, 对 所述各明文字符进行排 序, 获得排序后的各明文字符; 针对各密文文本, 分别执行以下操作: 分别基于任意一个密文文本中的各密文字符各 自对应的顺序信息, 从所述排序后的明文字符中, 确定出与相应的密文字符的顺序信息相 同的明文字符, 并采用确定出的明文字符, 对相应的密文字符进行替换, 获得替换后的文 本。 2.如权利要求1所述的方法, 其特征在于, 确定所述密文语料中的各密文文本, 具体包 括: 基于预设的段落结尾标识, 对所述密文语料进行分段, 获得 各密文段落; 基于预设的分句加密字符, 分别对所述各密文段落进行分句, 获得相应的各密文 文本。 3.如权利要求1所述的方法, 其特征在于, 分别采用预设公开文本中的各明文字符, 对 所述各密文 文本中的各密文字符进行替换, 获得 各替换后的文本, 具体包括: 基于已训练的密文字向量模型, 分别以所述各密文字符为输入参数, 确定相应的密文 字符对应的密 文字向量, 以及, 基于已训练的密 文字向量模型, 分别以所述各明文字 符为输 入参数, 确定相应的明文字符对应的明文字向量; 针对各密文文本, 分别执行以下操作: 分别基于任意一个密文文本中的各密文文本各 自对应的密文字 向量, 与所述各明文字 向量之间的向量相似度, 确定出满足向量相似度条 件的明文字符, 并采用确定出的明文字符, 对相应的密文字符进行替换, 获得替换后的文 本。 4.如权利要求1所述的方法, 其特征在于, 基于所述各替换后的文本, 对所述待训练模权 利 要 求 书 1/5 页 2 CN 114297693 B 2型进行训练, 获得 预训练模型, 具体包括: 分别对所述各替换后的文本进行掩码处 理, 获得各掩码文本; 分别确定所述各掩码文本各自对应的掩码文本向量; 分别将所述各掩码文本向量输入至待训练模型中, 基于所述各掩码文本向量, 对所述 待训练模型进行训练, 直至满足预设的训练截止条件, 获得训练完成的预训练模型。 5.如权利要求4所述的方法, 其特征在于, 分别将所述各掩码文本向量输入至待训练模 型中, 基于所述各掩码文本向量, 对所述待训练模 型进行训练, 直至满足预设的训练截止条 件, 获得训练完成的预训练模型, 具体包括: 针对所述各掩码文本向量, 分别执 行以下操作: 确定任意一掩码文本向量的掩码文本中, 各掩码位置各自对应的预设数个明文字符, 其中, 所述预设数个明文字符是根据掩码位置上 的明文字符对应的明文字 向量, 从与该明 文字符相似度最高的预设数个明文字符中选择出 的, 或, 所述预设数个明文字符是根据掩 码位置上的明文字符对应的顺序信息, 从排列在该明文字符的前预设数个明文字符和后预 设数个明文字符确定出的; 分别基于该掩码文本向量和预设数个明文字符各自对应的明文字向量, 生成各训练样 本; 将所述各训练样本输入至所述待训练模型中, 通过注意力机制, 计算以所述预设数个 明文字符为输出参数 的损失值, 并基于损失值, 对所述待训练模型 的各项模型参数进行调 整, 获得收敛于期望明文字符的模型参数。 6.如权利要求1 ‑5任一项所述的方法, 其特征在于, 基于所述预训练模型进行相应处 理, 具体包括: 将所述预训练模型发送至具有数据查看权限的客户端, 以使所述客户端采用所述预训 练模型进行文本处 理。 7.一种模型 预训练方法, 其特 征在于, 包括: 对获得的待处 理语料进行加密, 获得 所述待处 理语料对应的密文语料; 将所述密文语料发送至训练客户端, 以使所述训练客户端基于所述密文语料, 获得所 述密文语料中各密文文本各自对应的替换后的文本, 并基于各替换后的文本, 对待训练模 型进行训练, 获得 预训练模型, 并将所述预训练模型返回至具有数据查看权限的客户端; 基于接收到的所述预训练模型进行相应处 理; 其中, 各替换后的文本为确定所述各密文文本中各密文字符各自对应的密文字频, 以 及, 确定预设公开文本中各明文字符各自对应的明文字频, 基于各密文字频和各明文字频, 按照所述各密文字符各自对应的密文字频, 对所述各密文字符进行排序, 获得排序后的各 密文字符, 以及, 按照所述各明文字符各自对应的明文字频, 对所述各明文字符进行排序, 获得排序后的各明文字符; 针对各密 文文本, 分别执行以下操作: 分别基于任意一个密 文文 本中的各密文字符各自对应的顺序信息, 从所述排序后的明文字符中, 确定出与相应的密 文字符的顺序信息相同的明文字符, 并采用确定出 的明文字符, 对相应的密文字符进行替 换获得的, 其中, 每个密 文字频为相应的密 文字符在所述各密文文本中的出现次数, 每个明 文字频为相应的明文字符在所述公开文本中的出现次数。 8.如权利要求7所述的方法, 其特征在于, 对获得的待处理语料进行加密, 获得所述待权 利 要 求 书 2/5 页 3 CN 114297693 B 3

.PDF文档 专利 一种模型预训练方法、装置、电子设备及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种模型预训练方法、装置、电子设备及存储介质 第 1 页 专利 一种模型预训练方法、装置、电子设备及存储介质 第 2 页 专利 一种模型预训练方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:43:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。