全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210049823.8 (22)申请日 2022.01.17 (71)申请人 郑州锲颖信息科技有限公司 地址 450053 河南省郑州市金 水区东风路 28号院21号楼 22层2211号 (72)发明人 谭杰骏 王建军 金晓伟 郭官峰  胡文斌  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 肖明洲 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/194(2020.01) G06F 40/295(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种面向知识图谱构建的实体关系抽取方 法及系统 (57)摘要 本发明公开了一种面向知识图谱构建的实 体关系抽取方法及系统, 首先获取领域中非结构 化文本, 并进行数据预处理, 标注文本中出现的 实体、 实体类型和实体之间的关系, 得到训练数 据; 然后构建神经网络模型; 并将训练数据输入 神经网络模 型进行训练, 分别训练成为实体类型 分类模型, 实体关系类型分类模型; 最后将实体 类型分类模型和实体关系分类模型关联起来整 体运作, 对新数据先鉴定实体类型再在此基础上 抽取实体关系。 本发明不仅摆脱了人工设计提示 词, 也保证了跨数据集和跨领域的灵活性。 通过 对实体类别进行预分类, 缩小了实体 关系的分类 范围, 提升了关系分类的准确度。 本发明能够适 应随机初始化的提示词所带来的影 响, 而且收敛 更快, 准确度跟高。 权利要求书4页 说明书7页 附图2页 CN 114491066 A 2022.05.13 CN 114491066 A 1.一种面向知识图谱构建的实体关系抽取 方法, 其特 征在于, 包括以下步骤: 步骤1: 获取领域中非结构化文本, 并进行数据预处理, 标注文本中出现的实体、 实体类 型和实体之间的关系, 得到训练数据; 步骤2: 构建神经网络模型; 所述神经网络模型, 由依次连接的prompt层、 预训练语言模型PLM和类集中化分类器组 成; 所述prompt层, 用于在原始句子后面加上一个带空缺的后缀, 将原始句子转化为一个 带空缺的句子; 所述预训练语言模型PLM, 最前一层是词嵌入层, 用于将原始句子逐词转为词向量; 包 括把每一个空缺的词当作特殊字符, 也 转化为词向量; 所述类集中化分类器, 输入层连接预训练语言模型PLM, 输出词向量属于每个类的概 率; 步骤3: 将步骤1中的训练数据输入步骤2中的神经网络模型进行训练, 分别训练成为实 体类型分类模型, 实体关系分类模型; 步骤4: 将 实体类型分类模型和实体关系分类模型关联起来整体运作, 对新数据 先鉴定 实体类型再在此基础上抽取实体关系。 2.根据权利要求1所述的面向知识图谱构建的实体关系抽取方法, 其特征在于, 步骤1 中所述进 行数据预 处理, 是在非结构化文本中标注出实体、 实体类型和实体关系; 令原始文 本序列为x={x1, x2, ...x|x|), 设x包含一对具有某种关系的实体, 记为主语sx和宾语ox, 其 中主语和宾语都是x的子序列, 主语属于的实体类型记为t(sx), 宾语属于的实体类型记为t (ox), 他们之间的关系记 为r(sx, ox); 然后根据原始数据确定所有可能出现的主语实体类型 宾语实体类型 和所有实体关系类型R={r1, r2, ...}, ...属于t(sx), ...属于t(ox); 将数据按照不同的主语宾语实体类型对p={t(sx), t(ox)}进行划分, 在数据集中出现 的所有主语宾语实体类型对记为P={p1, p2, ...}; 对 于每种主语宾语实体类型对, 都有特定 而有限的实体 类型 并且R(pk)∈R。 3.根据权利要求1所述的面向知识图谱构建的实体关系抽取方法, 其特征在于, 步骤3 的具体实现包括以下子步骤: 步骤3.1: 将步骤1中的训练数据输入步骤2中的神经网络模型的prompt层 添加后缀, 实 体类型分类模型训练过程中的prompt层添加后缀为 “即[实体]是_ ”; 实体关系分类模型中 的prompt层添加后缀 为“即[主语]_[宾语] ”; 步骤3.2: prompt层将带空缺词的句子输入预训练语言模型PLM, 预训练语言模型PLM输 出空缺词的预测词向量, 再把预测词向量输入类集中化分类 器; 步骤3.3: 类集中化分类器将空缺词的预测词向量与每个类别的标准词向量作对比, 根 据空缺词向量与哪个标准词向量更接 近, 判断词向量属于哪个 类; 步骤3.4: 类集中化分类器比对预训练语言模型PLM输出的空缺词的预测词向量v, 和每 个类的标准词向量c, 计算它 们的相似度; 步骤3.5: 在迭代预定的轮次之后, 得到训练完成的模型。权 利 要 求 书 1/4 页 2 CN 114491066 A 24.根据权利要求3所述的面向知识图谱构建的实体关系抽取方法, 其特征在于, 步骤 3.2中, 预训练语言模型PLM输出空缺词的预测词向量, 是从原始句子到高维向量空间的映 射fθ: x→V, 其中θ 是 预训练语言模型PLM中包 含的所有可训练的参数。 5.根据权利要求3所述的面向知识图谱构建的实体关系抽取方法, 其特征在于, 步骤 3.3中, 所述标准词向量, 是在词嵌入空间随机生成张量, 即用与空缺词的预测词向量相同 维度的随机 向量作为标注词向量的初始值, 然后在后续训练过程中逐步调整标准词向量; 实体类别分类模型抽取主语类型时有标准词向量集合: 实体类别分 类模型抽取宾语类型时有标准词向量 对每个主语类型 ‑宾语类型对 pk有标准词向量 6.根据权利要求3所述的面向知识图谱构建的实体关系抽取方法, 其特征在于, 步骤 3.4中, 采用不同的相似度算法, 包括向量 点积、 余弦相似度、 欧氏距离、 曼哈顿距离; 对于样本x, 在预训练语言模型输出有空缺词的预测词向量v, 在类集中化分类器有n个 可能类别, 并对应c1到cn标准词向量; 在v分别与每个标准词向量做相似度比较后得到原始 相似度d1到dn; 在归一化处理中, 对第k个 类别, 利用以上公式计算得到处 理后的相似度Dk; 其中, σ, γ, β是常数, n是类别数量; 对随机变量x, Var(d)=E (X2)‑(E(X))2。 7.根据权利要求6所述的面向知识图谱构建的实体关系抽取方法, 其特征在于: 步骤3 的模型训练过程中, 先计算损失值 L, 然后根据梯度下降法调整参数; 损失值描述了样本正确类与预测概率的偏差, 对于样本x, 有n个可能的类别, 其中正确 类别y的标准词向量是cy; 通过类集中化分类 器输出的x属于各类别的概 率; 通过同时调整标准提示词c和预训练语言模型PLM的参数θ, 使类样本集中在提示词周 围; 将两部分可训练参 数联合标记为Θ, 其中, 实体类型 分类模型抽取主语类型有Θs={ θs, Cs}, 实体类型分类模型抽取宾语类型有Θo={θo, Co}, 主语类型 ‑宾语类型对pk有 得到损失值以后, 使用梯度下降法更新参数Θ; 第k轮的参数由第k ‑1轮的参数减去损 失值在Θ上的梯度得到: 在迭代预设的轮次之后, 得到训练完成的模型。 8.根据权利要求7所述的面向知识图谱构建的实体关系抽取方法, 其特征在于: 通过以 下原则更新模型 可训练参数集 合Θ; 实体类型分类模型抽取主语类型, 对于第j个类别, 训练数据中有 属于这个类, 该类 的标准词向量是 使得每个样本xi空缺词的预测词向量 与标准词向量总合 最大: 权 利 要 求 书 2/4 页 3 CN 114491066 A 3

.PDF文档 专利 一种面向知识图谱构建的实体关系抽取方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向知识图谱构建的实体关系抽取方法及系统 第 1 页 专利 一种面向知识图谱构建的实体关系抽取方法及系统 第 2 页 专利 一种面向知识图谱构建的实体关系抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:55:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。