全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211002675.0 (22)申请日 2022.08.22 (65)同一申请的已公布的文献号 申请公布号 CN 115081452 A (43)申请公布日 2022.09.20 (73)专利权人 军工保密资格审查认证中心 地址 100089 北京市海淀区紫竹院路69号 兵器大厦 专利权人 北京中船信息科技有限公司 (72)发明人 李璐 段荣成 秦瑶 张畅 张凯  韩立立 黄威  (74)专利代理 机构 北京华夏正 合知识产权代理 事务所(普通 合伙) 11017 专利代理师 韩登营 (51)Int.Cl. G06F 40/295(2020.01)G06N 20/00(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) (56)对比文件 CN 114841148 A,202 2.08.02 US 20210 65569 A1,2021.0 3.04 CN 114611519 A,202 2.06.10 CN 10873 3792 A,2018.1 1.02 CN 112528034 A,2021.0 3.19 彭湃.面向领域的多 源数据文本实体识别与 关联发现. 《中国优秀硕士学位 论文全文数据库 信息科技 辑》 .2022, 王明.基于知识蒸馏和对抗训练的实体关系 抽取研究. 《中国优秀硕士学位 论文全文数据库 信息科技 辑》 .2022, 审查员 武晓冬 (54)发明名称 一种实体关系的抽取方法 (57)摘要 本申请属于自然语 言处理领域, 具体提供了 一种实体关系的抽取方法。 该方法包括: 利用 BERT模型对待抽取的文本 数据进行编码, 获得所 述文本数据的向量化表示; 其中, 所述文本数据 包括至少一个句子; 基于所述文本数据的向量化 表示, 利用实体 关系抽取模型获取所述文本数据 中单词对存在特定关系的概率; 其中, 所述实体 关系抽取模型基于多头注意力机制和知识蒸馏 构建。 基于本申请提供的技术方案, 可 以提高实 体关系抽取的精确性。 权利要求书2页 说明书11页 附图2页 CN 115081452 B 2022.11.01 CN 115081452 B 1.一种实体关系的抽取 方法, 其特 征在于, 包括: 利用BERT模型对待抽取的文本数据进行编码, 获得所述文本数据的向量化表示; 其中, 所述文本数据包括至少一个句子; 基于所述文本数据的向量化表示, 利用实体关系抽取模型获取所述文本数据中单词对 存在特定关系的概 率; 其中, 所述实体关系抽取模型基于多头注意力机制和知识蒸馏构建; 所述实体关系抽取模型还用于获取所述文本数据中单词对的各单词作为头实体的位 置信息、 以及所述文本数据中单词对的各 单词作为尾实体的位置信息; 其中, 所述 位置信息包括 开始位置信息和结束位置信息; 所述BERT模型的训练过程包括: 获取第一训练样本数据, 所述第一训练样本数据包括未标注的文本数据, 所述文本数 据包括至少一个句子; 根据所述第一训练样本数据对所述BERT模型进行基于自监督学习的训练, 更新所述 BERT模型的参数, 以获得 所述BERT模型; 所述实体关系抽取模型的训练过程包括: 获取第二训练样本数据; 所述第二训练样本数据包括文本数据的向量化表示、 所述文 本数据中单词对之 间存在特定 关系的独热硬标签、 所述文本数据中单词对的各单词作为头 实体的位置信息标签、 以及所述文本数据中单词对的各 单词作为尾实体的位置信息标签; 根据所述第二训练样本数据对教师模型进行训练, 更新所述教师模型的参数, 以获得 所述教师模型; 根据所述第二训练样本数据对所述教师模型进行知识蒸馏, 获得学生模型, 并将所述 学生模型作为所述实体关系抽取模型; 所述根据所述第二训练样本数据对教师模型进行训练, 更新所述教师模型的参数, 以 获得所述教师模型, 包括: 将所述第二训练样本数据中的所述文本数据的向量 化表示输入至注意力头 部; 对于每个注意力头部, 分别进行三次线性变换生成query矩阵、 key矩阵和value矩阵; 其中, 所述qu ery矩阵用于表示所述文本数据中各单词作为头实体所对应的尾实体信息, 所 述key矩阵用于表 示所述文本数据中各单词 作为尾实体对应的头实体信息, 所述value矩阵 用于表示所述文本数据中各 单词所在的关系三元组中头实体信息和尾实体信息; 根据所述query矩阵和所述key矩阵确定所述文本数据中单词对存在特定关系的概率, 并将所述 概率作为所述教师模型的第一输出; 所述根据所述query矩阵和所述key矩阵确定所述文本数据中单词对存在特定关系的 概率, 包括: 按下式确定所述 概率: 其中, 为单词i和单词j存在特定关系的概率, 为激活函数, 为单词i作为头实体 对应的尾实体信息, 为单词j作为尾实体对应的头实体信息, 为 的向量维度, 其中,权 利 要 求 书 1/2 页 2 CN 115081452 B 2的向量维度与 的向量维度相同; 还包括: 根据所述文本数据中单词对存在特定关系的概率和所述value矩阵确定所述文本数据 中单词对中各 单词的注意力文本表征; 根据所述各 单词的注意力文本表征和所述文本数据的向量 化表示确定门函数; 根据所述门函数确定所述各单词作为头实体的位置信 息、 以及所述各单词作为尾实体 的位置信息, 并将所述 位置信息作为所述教师模型的第二输出; 所述根据 所述各单词的注意力文本表征和所述文本数据的向量化表示确定门函数, 包 括: 按下式确定所述门函数: 其中, 为门函数, 为单词i的注意力文本表征, 为单词i的词向量, 为激活 函数, 为所述各 单词的注意力文本表征和所述文本数据的向量 化表示的门转换矩阵; 还包括: 所述教师模型训练时的最小优化目标按下式确定: 其中, 为单词i和单词j存在特定关系的概率,   为单词i和单词j在特定关系上 的监督信号, 为最小优化目标, r为第r个关系类型, R为关系类型总数, n为输入的文本数 据的长度; 所述根据所述第二训练样本数据对所述教师模型进行知识蒸馏, 获得 学生模型, 包括: 按下式确定所述知识蒸馏的蒸馏标签: 其中, 为软化程度, , e为自然常数, T为训练周期, 为教师模型的输出, 为所述文本数据中单词对之间存在特定关系的独热硬标签, 为蒸馏标签。权 利 要 求 书 2/2 页 3 CN 115081452 B 3

.PDF文档 专利 一种实体关系的抽取方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体关系的抽取方法 第 1 页 专利 一种实体关系的抽取方法 第 2 页 专利 一种实体关系的抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:11:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。