全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210151431.2 (22)申请日 2022.02.18 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号南京大学 (72)发明人 戴新宇 郑楠涛 何亮 黄书剑  张建兵 陈家骏  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 胡建华 于瀚文 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种结合远程监督和有监督的关系分类方 法 (57)摘要 本发明提供了一种结合远程监督和有监督 的关系分类方法, 通过有监督数据训练得到教师 模型, 在使用远程监督数据训练学生模型时对实 体进行随机遮掩, 同时利用蒸馏 技术引入教师模 型的监督信号, 从而达到降噪的目的。 得到学生 模型后, 在有监督数据上微调学生模型, 进一步 利用有监 督数据增强学生模型。 权利要求书3页 说明书7页 附图4页 CN 114547300 A 2022.05.27 CN 114547300 A 1.一种结合远程 监督和有监 督的关系分类方法, 其特 征在于, 包括以下步骤: 步骤1, 获取关系分类文本数据, 包括有监督的关系分类文本数据和远程监督的关系分 类文本数据; 步骤2, 在有监 督的关系分类文本数据上训练关系分类教师模型; 步骤3, 在远程监督的关系分类文本数据 上训练关系分类学生模型, 通过实体遮掩和蒸 馏技术对远程 监督数据进行降噪; 步骤4, 在有监 督的关系分类文本数据上微调步骤3训练得到的学生模型; 步骤5, 使用步骤4训练得到的学生模型进行关系预测。 2.根据权利要求1所述的方法, 其特 征在于, 步骤1包括: 步骤1‑1, 通过标注的方式获取有监 督的关系分类文本数据; 步骤1‑2, 通过远程 监督技术获取自动标注的关系分类文本数据。 3.根据权利要求2所述的方法, 其特 征在于, 步骤1 ‑2包括: 步骤1‑2‑1, 获取知识图谱中的三元组信息, 三元组信息包含实体对和实体对之间的关 系, 构成三元组集合R={(h1, t1, r1), ..., (hi, ti, ri), ..., (hn, tn, rn)}, 其中, n为收集得到 的三元组的数量, hi表示第i个三元 组中的头实体, ri表示第i个三元 组中的关系, ti表示第i 个三元组中的尾实体; 步骤1‑2‑2, 从互联网获取文本, 构建非结构化的语料库D={(text1, h1, t1), ..., (texti, hi, ti), ..., (textm, hm, tm)}, 其中, m表示收集到的文本的数量, texti表示第i个文 本; 步骤1‑2‑3, 使用远程监督方法, 对于文本语料库D中的每一个文本text, 标记其中出现 的头尾实体对(h, r)的关系, 基于远程监督的假设进行标注: 如果 实体对在三元 组R中出现, 则标注为R中指示的关系, 如果 三元组没有在R中出现, 则标注为没有关系; 将通过远程 监督标注得到的数据集记为 其中, m表示远程监督标注样本的数量, 表 示远程监督得到的第i个标注样本的标签, 以独热方式进 行编码, 标注的关系对应位置为 1, 其余位置为0。 4.根据权利要求3所述的方法, 其特 征在于, 步骤2包括: 步骤2‑1, 初始化教师模型的参数θT; 步骤2‑2, 输入有监督的关系分类文本数据 其中, n表示有监督的样本数量, texti表示第i个样本的文本, hi和ti表示第i个样本中的头 实体和尾实体, 表示第i个标注样本的标签, 采用独热 方式进行编码; 步骤2‑3, 教师模型进行前向计算: 通过编码器编码输入的标注样本xT={w1, ..., wi, ..., h, ..., t, ..., wn}, 得到每个词token的表示E={e1, ..., ei, ..., eh, ..., et, ..., en}, 其中, wi表示上下文中的第i个单词, h和t分别表 示头尾实体, ei代表经过编码器编码之 后第i个单词的表示, eh和et分别代表经过编码器编码之后头实体的表示和尾实体的表示; 步骤2‑4, 获取eh和et, 将它们输入双线性层, 得到每个关系类别上的输出结果zi, 计算 公式为: zi=ehWiet, 其中Wi表示第i个关系类别对应的参数矩阵, i={1, 2, ..., c}, c表示关权 利 要 求 书 1/3 页 2 CN 114547300 A 2系类别总数; 再经过softmax函数得到每个关系上的预测概率: 其中, exp代 表指数函数, 表示第i个关系的概 率值; 步骤2‑5, 计算概率分布和标注的标签yT的交叉熵损失lossT: 将交叉熵损失作为教师模型的预测损失; 其中, 为第i个关系的真实标签, 表示教师模 型在第i个关系上的预测概 率; 步骤2‑6, 计算梯度, 反向传播更新教师模型的参数θT; 步骤2‑7, 经过迭代训练后, 得到教师模型。 5.根据权利要求 4所述的方法, 其特 征在于, 步骤3包括: 步骤3‑1, 初始化学生模型的参数θS; 步骤3‑2, 输入远程 监督的关系分类文本数据; 步骤3‑3, 利用步骤2训练得到的教师模型对输入的远程监督标注样本xds={w1, ..., wi, h, ..., t, ..., wn}进行预测, 得到每个关系上的输出结果{z1, ..., zi, ..., zc}, zi表示教师模 型在第i个关系上归一化前的预测结果; 经过softmax函数计算得到每个关系上的概率值 参数T用于表示蒸馏的温度; 计算得到的概 率分布称为soft  target; 步骤3‑4, 对输入的远程监督数据样本xds中的实体部分进行随机遮掩, 随机遮掩的变量 M服从伯努利分布, 遮掩的概率为P(M=1)=q, q是一个超参数, 用于控制遮掩实体的比例, 输入的远程 监督数据样本表示 为: 其中, [E1]和[E2]是两个特殊的符号, 分别用来遮 掩头实体和尾实体; 步骤3‑5, 学生模型进行前向计算: 通过编码器编码输入的样本, 编码得到的结果表示 为E: e[E1]和e[E2]分别表示遮掩后的头、 尾实体经过编码之后的表示, ei表示第i个单词经过 编码器编码之后的表示; 步骤3‑6, 获取3‑5中的实体表示, 当M=1时, 取e[E1]和e[E2]; 当M=0时, 取eh和et; 将实体 表示输入双线性层和softmax层, 得到学生模型 预测的概 率分布PS; 步骤3‑7, 计算概率分布PS和远程监督的标签yds的交叉熵损失l ossds: 步骤3‑8, 计算学生模型 预测的概 率分布和教师模型 预测的概 率分布之间的差异; 步骤3‑9, 将步骤3 ‑6和步骤3 ‑7中的损失相加, 作为学生模型最终的预测损失l ossS; 步骤3‑10, 计算梯度, 反向传播更新学生模型的参数θS; 步骤3‑11, 经过迭代训练后, 得到学生模型。 6.根据权利要求5所述的方法, 其特征在于, 步骤3 ‑7包括: 采用如下公式计算概率分布 PS和远程监督的标签yds的交叉熵损失lossds: 其中, 为第i 个关系的远程 监督标签, 表示学生模型在第i个关系上的预测概 率。 7.根据权利要求6所述的方法, 其特征在于, 步骤3 ‑8包括: 选择KL散度作为衡量方式,权 利 要 求 书 2/3 页 3 CN 114547300 A 3

.PDF文档 专利 一种结合远程监督和有监督的关系分类方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种结合远程监督和有监督的关系分类方法 第 1 页 专利 一种结合远程监督和有监督的关系分类方法 第 2 页 专利 一种结合远程监督和有监督的关系分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。