全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210333864.X (22)申请日 2022.03.30 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 孙一立 戴宪华  (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种改进的结合实体关系和局部信息的关 系抽取方法 (57)摘要 针对自然语言处理中的文档级文本的实体 关系抽取任务, 本发明提出了一种改进的结合实 体关系和局部信息的关系抽取方法。 这是一种新 的基于深度学习文本实体关系抽取网络。 针对文 档级实体关系抽取存在的实体分布在多个句子 中, 间隔相对较远, 实体对多标签分类以及实体 表示中的上下文噪声问 题 , 结合了SSAN (Structured  Self‑Attention  Network)模型和 ATLOP(Adaptive  Thresholding  and Localized   Context Pooling)模型各自的特点, 将作为文本 词嵌入模块的SSAN模型和作为实体关系分类模 块的ATLOP模型结合适配使用构造出新的模型。 该模型既对专门的实体句内和跨句关系进行专 门的建模, 有使用自适应判断阈值方法和局部上 下文信息对应缓解了多 标签和上下文噪声问题, 在实际中取得了一定的效果。 权利要求书1页 说明书5页 附图4页 CN 114791953 A 2022.07.26 CN 114791953 A 1.根据权利要求, 本发明是一种一种改进的结合实体关系和局部信息的关系抽取方 法。 2.根据权利要求, 本发明的设计灵感来自BERT模型改进而来的融合实体结构的词向量 嵌入模型在关系抽取等下游任务的性能提示, 算法具体步骤参考结构化自注意力网络和自 适应阈值和 局部上下文两种的融合使用。 3.根据权利要求, 本发明的关系抽取方法包含融合实体结构的词嵌入模块和融合上下 文信息与自适应阈值的分类模块, 是两种模块的互补结合使用。权 利 要 求 书 1/1 页 2 CN 114791953 A 2一种改进的结 合实体关系和局部信息的关系抽取方 法 技术领域 [0001]本发明涉及到深度学习领域, 尤其是基于人工神经网络的自然语言处 理方向。 背景技术 [0002]自然语言处理中的关系抽取任务具体含义为在给定的文本中分类识别或者提取 出实体之间的语义关系。 具体来说, 在识别出文本中实体对象后(如USA和New  York), 再通 过分类或者抽取得到它们之间的关系(如contains), 最终得到一个实体关系三元组(如 (USA, New York, contains))。 关系抽取任务根据输入文本规模, 可分类为句子级别抽取, 文 档级别关系抽取和语料级别关系抽取。 其中, 句子级别的关系抽取每次抽取对应输入为一 个句子, 关系对象都必定在同一句子中, 文档级别的关系抽取每次则是对一段文字来进行, 有关系的实体可能在同一句 子中也可能跨句 子, 并且同一实体对 象可能多次出现。 实际生 活中许多关系都是通过多个句子表达出来的。 根据统计, 40.7%以上的关系只能通过文档 级的文本得到。 因此, 文档级关系抽取显得至 关重要, 一般领域的文档关系抽取在近年逐渐 引起关注。 [0003]近几年以来各种各样的基于深度学习抽取方法相继被提出, 性能指标也逐渐提 高, 然而整体的数据指标距离实用还有相当的距离, 且文档级的实体间可以超过一种关系。 性能指标的提高, 实体 分布在多个句子中, 间隔相对较远, 实体对多标签分类以及实体表 示 中的上下文噪声问题 仍然是一个需要不断改善的关键。 而目前许多模型都没有对专门的实 体跨句关系进行专门的建模和设计采用适 合不定数标签的专门的分类判断方法。 [0004]GAIN模型利用图卷积网络建模实体提及之间相互关系, 两层卷积后输出的提及表 示再平均为实体表示, 用于实体节点图神经网络建模。 此方法更好地把跨句上下文信息加 入到实体的向量表示当中, 在分类时加入了两个实体间非直接的间隔一个实体的关系推理 信息, 例如实体A和B 有关系, 但两者不出现在同一句子中, 必须通过同时与两者有关系的一 个实体进行推理。 从而更好的实现了间接的实体关系分类。 [0005]ATLOP(Adaptive  Thresholding  and Localized  Context Pooling)模型则是采 用了训练时自适应的分类概率判断阈值和引入实体附近的有关上下文信息。 统计表明, 7% 的实体对不止存在一种关系; 为此有必要去关注多标签的问题, 同时, 该模型可能有不同的 对不同实体对或类的置信度, 其中一个全局阈值是不够的, 该方法提出一个动态的自适应 threshold用于分类器输出概率, 而不是一般情况下固定的全局值, 这个动态值通过对应 adaptive ‑threshol d损失函数学习得到, 最终logits中的值大于该阈值的标签全输出, 没 有则为无关系。 在许多方法中实体表示就是单纯 的词嵌入平均, 这样的话每一种实体无论 在那个实体对中都是一种表示, 这样就会引入无关的上下文噪声。 为此, 在不同位置的实体 对表示中加入与位置相关的上 下文信息 。 [0006]SSAN模型(Structured  Self‑Attention  Network)则是在自然语言处理常用的 Bert模型基础上的改进, 在其自注意力模块中针对关系抽取任务加入实体联系信息, 把结 构和共现信息融入编码方法中, 同时使得嵌入分类都在一种网络中完成, 减少 了异构网络说 明 书 1/5 页 3 CN 114791953 A 3

.PDF文档 专利 一种改进的结合实体关系和局部信息的关系抽取方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种改进的结合实体关系和局部信息的关系抽取方法 第 1 页 专利 一种改进的结合实体关系和局部信息的关系抽取方法 第 2 页 专利 一种改进的结合实体关系和局部信息的关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。