全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211037489.0 (22)申请日 2022.08.26 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 刘峤 徐远扬 骆妲 赵海睿  甘洋镭 侯睿 代婷婷 佟飘  (74)专利代理 机构 成都东恒知盛知识产权代理 事务所 (特殊普通合伙) 51304 专利代理师 何健雄 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 40/30(2020.01)G06F 40/295(2020.01) G06N 5/02(2006.01) G06N 3/04(2006.01) (54)发明名称 一种融合实体类型表征与关系表征的关系 抽取方法 (57)摘要 本发明公开了一种融合实体类型表征与关 系表征的关系抽取方法, 属于关系抽取技术领 域。 本发明设计文本 ‑主客体弱相关语义表征机 制, 通过引入实体类型信息替换实体词意信息, 进而降低抽取模型对主体 ‑客体语义关联的依 赖; 在上述基础上, 本发明进一步建模实体关系 的抽象语义信息, 并与包含主客体类型信息的上 下文语义表征进行融合, 生 成实体关系的语义映 射, 获得主体 ‑关系‑客体三元组更准确的预测效 果。 权利要求书3页 说明书7页 附图1页 CN 115391557 A 2022.11.25 CN 115391557 A 1.一种融合实体类型表征与关系表征的关系抽取方法, 其特征在于, 所述关系抽取方 法具体步骤如下: 步骤S10: 对于输入系统的自然语言文本, 基于word ‑piece分词方法编码文本的语义信 息、 实体类型信息及关系信息, 输出W ord‑Piece语义表征、 实体 类型表征、 关系表征; 步骤S20: 基于输出的word ‑piece语义表征, 进一步利用BERT和二元标注法抽取文本中 的主体和客体; 步骤S30: 通过输出的实体类型表征替换抽取出的主体和客体的词义表征, 以弱化主 体‑客体语义关联信息, 构 造文本中主体与客体的弱相关语义表征机制, 生 成主体客体之间 的弱语义关联新文本; 步骤S40: 构造基于BERT表示模型的关系编码器, 对弱语义关联新文本进行编码, 提取 文本中的高层抽象语义信息, 并结合双向上下文信息输出文本 ‑主客体弱相关的上下文语 义向量表征; 步骤S50: 构造文本 ‑主客体弱相关的上下文语义信息与关系信息的融合机制, 融合后 的表征向量将被用于捕获主体 ‑关系‑客体三元组。 2.根据权利要求1所述的融合实体类型表征与关系表征的关系抽取方法, 其特征在于: 所述步骤S10的具体步骤如下: 步骤S101, 输入系统的自然语言文本为单词序列, s={w1,…, wl}, 其中wi, i∈{1, 2, ..., l}, 表示语句中的第i个单词, l为待抽取语句所含单词数量; 构造基于BPE双字节编 码方式的Word ‑Piece表征模 型来表示向量空间中的单词, 将 输入句子中的每个单词都分割 为细粒度的子词, 输出子词表征序列 其中ti, i∈{1, 2, …, L}, 表示语句中的第i个子词, L 为待抽取语句经 过Word‑Piece划分后的子词长度; 步骤S102, 将实体类型和关系类型预先输入系统进行向量表征, ε为实体类型的集合, R 为关系类型的集合, 对于输入系统的任意实体类型e∈ε和任意关系类型r∈R, 分别构造基 于多层感知机的实体类型和关系表征模型, 将离散的实体类型符号和关系类型符号转化为 连续的高维表征向量 以输出实体 类型和关系类型的细粒度语义信息 。 3.根据权利要求1所述的融合实体类型表征与关系表征的关系抽取方法, 其特征在于: 所述步骤S20的具体步骤如下: 步骤S201, 构造基于BERT神经网络表示模型的命名实体编码器, 将子词序列 作为系统编码器的输入, 顺序通过N个Transformer编码器块, 通过微调参数对每个词元的双向上下文信息进行深层次编 码, 输出深度的双向语言表征向 量序列 其中, Trans表示Transformer编码器块, hα‑1表示上一个Transformer编码器块的编码 结果; 步骤S202, 建立基于全连接神经网络的命名实体主体解码器和客体解码器, 以抽取子 词序列中的候选主体和候选客体, 以编码器最后一个块的输出 权 利 要 求 书 1/3 页 2 CN 115391557 A 2为解码器的输入, 对子词序列中的每个词元i, 计算该词元为主体跨度起点、 主体跨度终点、 客体跨度起 点、 客体跨度终点的概 率, 公式分别如下: 其中, Wstart_s, Wend_s, Wstart_o, bstart_s, bend_s, bstart_o, 用代 表全连接神经网络中可 学习的权 重参数和偏差参数, σ 是sigmo id激活函数; 对比计算出的概率值 type∈start_s, end_s, start_o, end_o是否超过预设定的 阈值, 若是, 则相应的判定标签 type∈start_s, end_s, start_o, end_o被分配为1,否 则标签被分配为0; 根据上述判定标签 的结果输出对应的主体跨度起点、 主体跨度终点、 客体跨度起 点、 客体跨度终点的序列表示, 步骤S203, 对主体起点判定序列dstart_s中的一个1标签, 在主体终点判定序列dend_s中向 右寻找最近的一个1标签, 以组成一个潜在主体跨度subi; 对于客体判定序列进行相同的操 作, 输出一个潜在客体跨度obji; 对所有主体和客体起点判定序列中的1标签进行上述操作, 分别输出潜在主体跨度序 列Hsub=(sub1, ..., subm)和潜在客体跨度序列Hobj=(obj1, ..., objn), 两两组合, 形成潜在 主体‑客体跨度对序列, H=(sub1, obj1), ..., (subm×n, objm×n); 其中, m, n分别为子词序列抽取 出的潜在主体数目和潜在客体数目。 4.根据权利要求1所述的融合实体类型表征与关系表征的关系抽取方法, 其特征在于: 所述步骤S30的具体步骤如下: 步骤S301, 构造文本 ‑主客体弱相关语义表征机制, 输入实体类型信息以弱化主体 ‑客 体语义关联信息, 对于给定主体 ‑客体跨度对(subi, objj), i≠j, 使用对应的实体类型表征 向量e(subi), 对子词序列 中对应跨度的表征向量进行 替换, 以弱化主体 ‑客体语义关联信息, 输出新文本表征序列, L2 为替换后的子词序列长度, 同时输出类型表征向量e(subi), e(objj)在新序列T中的位置, (s1, ..., sm)表示主体替换位置序列, m为主体替换长度, (o1, ..., on)表示客体替换位置序 列, n为客体替换长度。 5.根据权利要求1所述的融合实体类型表征与关系表征的关系抽取方法, 其特征在于: 所述步骤S40的具体步骤如下:权 利 要 求 书 2/3 页 3 CN 115391557 A 3

PDF文档 专利 一种融合实体类型表征与关系表征的关系抽取方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合实体类型表征与关系表征的关系抽取方法 第 1 页 专利 一种融合实体类型表征与关系表征的关系抽取方法 第 2 页 专利 一种融合实体类型表征与关系表征的关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。