全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210917161.1 (22)申请日 2022.08.01 (71)申请人 南京邮电大 学 地址 210012 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 徐小龙 董益豪  (74)专利代理 机构 南京苏科专利代理有限责任 公司 32102 专利代理师 姚姣阳 (51)Int.Cl. G06F 16/953(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 网络文档关系抽取方法及系统 (57)摘要 本发明提供了一种网络文档关系抽取方法 及系统, 所述网络文档关系抽取方法包括: 使用 每个实体中的第一次出现的提及替换该实体中 剩余的所有提及; 分别使用文档级对比预训练和 掩码语言模 型预训练对预训练模 型进行训练; 使 用训练后的预训练模型对文档样本进行上下文 编码, 得到每个标记的向量表示, 将每个标记的 命名实体识别信息和词性标注信息分别转化为 向量表示并与每个标记的向量表 示进行拼接, 得 到词嵌入表 示和文档嵌入表示; 对于实体进行表 示增强, 得到最终嵌入表示; 使用二元交叉熵损 失函数计算实体 之间存在关系的可能性, 选取可 能性最高的关系作为关系分类的结果。 本发明能 够有效进行网络文档关系的抽取, 为网络文本处 理提供有效支持。 权利要求书2页 说明书6页 附图2页 CN 115357775 A 2022.11.18 CN 115357775 A 1.一种网络文档关系抽取 方法, 其特 征在于, 主 要包括以下步骤: 步骤1、 使用每 个实体中的第一次出现的提及替换 该实体中剩余的所有提及; 步骤2、 建立预训练模型, 分别使用文档级对比预训练和掩码语言模型预训练对预训练 模型进行训练, 得到文档级对比预训练的损失函数和掩码语言模型预训练的损失函数, 加 权后得到总体损失函数; 步骤3、 在每个实体的所有的提及的前后分别插入开始符号和结束符号, 使用训练后的 预训练模型对文档样本进行上下文编码, 得到每个标记的向量表示, 将每个标记的命名实 体识别信息和词性标注信息 分别转化为向量表示并与每个标记的向量表示进 行拼接, 得到 词嵌入表示和文档嵌入表示; 步骤4、 对于 头实体或尾实体进行表示增强, 得到 头实体和尾实体的最终嵌入表示; 步骤5、 将头实体和尾实体分别映射到隐藏状态, 使用二元交叉熵损失函数计算头实体 和尾实体之间存在关系的可能性, 选取 可能性最高的关系作为关系分类的结果。 2.根据权利要求1所述的网络文档关系抽取方法, 其特征在于: 在步骤1中, 对于实体M, 有n个提及{M1, M2,…, Mn}, 其中n≥1, 当n>1 时, 使用M1替换{M2, M3, ..., Mn}, 当n=1时, 跳过 步骤1。 3.根据权利要求1所述的网络文档关系抽取方法, 其特征在于: 步骤2中, 文档级对比预 训练的损失函数如下: 其中, DA表示要预测的含有目标关系的文档样本, 是DA的转置, DB表示与含有相同目 标关系的文档样本, 表示随机选取的含有不同关系的文档样本, N表示随机抽取的负样 本个数, 对数l og以自然常数 e为底; 掩码语言模型 预训练的损失函数如下: 其中, 表示屏蔽标记, S表 示输入的单词序列, m(S)表示S中的屏蔽标记 集合, S\m(S)表示 S中的未屏蔽标记, P表示在词汇 表中选择一个标记来恢复屏蔽标记 的概率。 4.根据权利要求3所述的网络文档关系抽取 方法, 其特 征在于: 总体损失函数如下: 其中, γ1和γ2是平衡文档级对比预训练的损失函数和掩码语言模型预训练的损失函数 的权重参数。 5.根据权利要求3所述的网络文档关系抽取方法, 其特征在于: 步骤3中, 对文档样本 中 的每一个单词wi, wi的词嵌入表示xi的计算公式如下: [x1, x2, ..., xl′]=BERT([w1, w2, ..., wl′]), 其中, l′是文档的长度, BERT表示经过文档级对比预训练和掩码语言模型预训练后的 预训练模型; 将每个标记的命名实体识别信息和词性标注信息分别转化为向量表示, 得到权 利 要 求 书 1/2 页 2 CN 115357775 A 2向量 和 将向量 和 与单词wi的词嵌入表示xi进行拼接, 得到词嵌入表示x ′i: 其中, ; 表示 拼接操作, 而 文档嵌入表示H为: 6.根据权利要求5所述的网络文档关系抽取方法, 其特征在于: 将步骤3获得的头实体 和尾实体的嵌入表示进行表示增强, 得到 头实体和尾实体的最终嵌入表示 εh和 εt: 其中,→表示hm和tm是头实体h和尾实体t的一个提及, εhm和 εtm表示头实体h和尾实体t 的一个提及hm和tm的嵌入表示, dist()表示 提及之间的关系距离 。 7.根据权利要求6所述的网络文档关系抽取方法, 其特征在于: 在得到头实体和尾实体 的最终嵌入表示 εh和 εt后, 将头实体和尾实体分别映射到隐藏状态zh和zt: Zh=σ(Whεh), Zt=σ(Wtεt), 其中, {Wh, Wt}∈Rd×d表示权重矩阵, σ 表示非线性激活函数。 8.根据权利要求7所述的网络文档关系抽取方法, 其特征在于: 对头实体和尾实体进行 关系预测, 头实体和尾实体之间存在关系r的可能性: 其中, Wr∈Rd×d表示权重矩阵, br∈Rd表示偏置项。 9.根据权利要求8所述的网络文档关系抽取方法, 其特征在于: 使用二元交叉熵损失函 数计算得到头实体和尾实体之间存在关系r的可能性, 二元交叉熵损失函数 的计算公式如 下: 其中, c为预设的关系 种类个数, ri为二元标签0或1, 当 关系r存在时ri为1, 反之为0。 10.一种网络文档关系抽取系统, 其特征在于: 应用 如权利要求1 ‑9中任一项所述的网 络文档关系抽取 方法。权 利 要 求 书 2/2 页 3 CN 115357775 A 3

PDF文档 专利 网络文档关系抽取方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网络文档关系抽取方法及系统 第 1 页 专利 网络文档关系抽取方法及系统 第 2 页 专利 网络文档关系抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。