全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210290410.9 (22)申请日 2022.03.23 (71)申请人 国家电网有限公司客户服 务中心 地址 300309 天津市东 丽区丽湖环路21号 申请人 浙江省北 大信息技 术高等研究院 (72)发明人 刘旭生 陈勇达 徐斌 刘芳  张烁 孙荣 韩维 杨睿 徐胤  刘一凡  (74)专利代理 机构 北京辰权知识产权代理有限 公司 11619 专利代理师 李小朋 (51)Int.Cl. G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种实体关系联合抽取方法、 装置、 存储介 质及终端 (57)摘要 本发明公开了一种实体 关系联合抽取方法, 方法包括: 获取待抽取的目标文本数据; 将目标 文本数据输入预先训练的实体关系联合抽取模 型中; 实体关系联合抽取模型包括BERT编码层、 CRF层和sigmoid得分层; 预先训练的实体关系联 合抽取模型训练过程包括, 将BERT编码层输出的 字符表示向量输入CRF层得到第一交叉熵损失 值; 根据每个字符的拼接向量输入sigmoid得分 层得到第二交叉熵损失值; 每个字符的拼接向量 是由CRF层输 出的字符的实体预测标签与BERT编 码层输出的字符表示向量拼接的; 输出目标文本 数据对应的实体参数和关系参数。 本申请可提升 关系抽取任务的准确性, 模型能自动学习两个任 务的相关信息, 也能有效减小因流水线工作导致 的累积误差, 提升模型抽取准确度。 权利要求书2页 说明书11页 附图4页 CN 114840680 A 2022.08.02 CN 114840680 A 1.一种实体关系联合抽取 方法, 其特 征在于, 所述方法包括: 获取待抽取的目标文本数据; 将所述目标文本数据输入预 先训练的实体关系联合抽取模型中; 其中, 所述实体关系联合抽取模型包括BERT编码层、 CRF层和sigmoid得分层; 所述预先 训练的实体关系联合抽取模 型训练过程包括, 将所述BERT编码层输出的字符表示向量输入 所述CRF层得到第一交叉熵损失值; 根据每个字 符的拼接向量输入 所述sigmoid得分层得到 第二交叉熵损失值; 所述每个字符的拼接向量是 由所述CRF层输出 的字符的实体预测标签 与所述BERT编码层输出的字符表示向量 拼接的; 输出所述目标文本数据对应的实体参数和关系参数。 2.根据权利要求1所述的方法, 其特征在于, 所述预先训练 的实体关系联合抽取模型训 练过程还 包括: 创建实体关系联合抽取模型; 获取并预处 理原始数据, 生成训练语料; 将所述训练语料输入所述实体关系联合抽取模型中, 得到第 一交叉熵损失值和第 二交 叉熵损失值; 根据所述第一交叉熵损失值和所述第二交叉熵损失值生成预先训练的实体关系联合 抽取模型。 3.根据权利要求2所述的方法, 其特征在于, 所述获取并预处理原始数据, 生成训练语 料, 包括: 获取原始数据; 将所述原 始数据转 化为计算机可处 理的结构化数据; 剔除所述结构化数据中的冗余数据, 得到最终的结构化数据; 构建领域知识模型; 其中, 所述领域知识模型至少包括本体类别、 本体属性以及本体间 关系; 根据所述本体类别、 本体属性以及本体间关系对最终的结构化数据进行数据标注, 得 到标注后的数据; 将标注后的数据按照预设比例进行划分, 得到训练语料。 4.根据权利要求2所述的方法, 其特征在于, 所述将所述训练语料输入所述实体关系联 合抽取模型中, 包括: 将所述训练语料输入所述BERT编码层中, 得到每 个字符的表示向量。 5.根据权利要求1所述的方法, 其特征在于, 所述根据每个字符的拼接向量输入所述 sigmoid得分层得到第二交叉熵损失值, 包括: sigmoid得分层将所述每 个字符的拼接向量进行排列组合, 生成多组字符的拼接向量; sigmoid得分层确定第一关系, 根据所述第一关系计算每组字符的拼接向量之间的关 系得分; 其中, 所述第一关系是 预设关系中任意 一个关系; sigmoid得分层根据所述关系得分计算所述每组字符的拼接向量之间的概率值, 生成 每组字符的拼接向量对应的多个概 率值; sigmoid得分层根据所述每组字符的拼接向量对应的多个概率值计算关系部分的第二 交叉熵损失值。权 利 要 求 书 1/2 页 2 CN 114840680 A 26.根据权利要求2所述的方法, 其特征在于, 所述根据所述第 一交叉熵损失值和所述第 二交叉熵损失值 生成预先训练的实体关系联合抽取模型, 包括: 将所述第一交叉熵损失值和所述第二交叉熵损失值作和, 得到目标损失值; 当所述目标损失值到 达预设阈值时, 生成预 先训练的实体关系联合抽取模型。 7.根据权利要求6所述的方法, 其特 征在于, 所述方法还 包括: 当所述目标损失值未到达预设阈值时, 将所述目标损失值反向传播以更新模型的参 数, 并继续执 行所述将所述训练语料输入所述实体关系联合抽取模型中的步骤。 8.一种实体关系联合抽取装置, 其特 征在于, 所述装置包括: 文本数据获取模块, 用于获取待抽取的目标文本数据; 文本数据输入模块, 用于将所述目标文本数据输入预先训练的实体关系联合抽取模型 中; 其中, 所述实体关系联合抽取模型包括BERT编码层、 CRF层和sigmoid得分层; 所述预先 训练的实体关系联合抽取模 型训练过程包括, 将所述BERT编码层输出的字符表示向量输入 所述CRF层得到第一交叉熵损失值; 根据每个字 符的拼接向量输入 所述sigmoid得分层得到 第二交叉熵损失值; 所述每个字符的拼接向量是 由所述CRF层输出 的字符的实体预测标签 与所述BERT编码层输出的字符表示向量 拼接的; 参数输出模块, 用于 输出所述目标文本数据对应的实体参数和关系参数。 9.一种计算机存储介质, 其特征在于, 所述计算机存储介质存储有多条指令, 所述指令 适于由处 理器加载并执 行如权利要求1 ‑7任意一项的方法步骤。 10.一种终端, 其特征在于, 包括: 处理器和存储器; 其中, 所述存储器存储有计算机程 序, 所述计算机程序适于由所述处 理器加载并执 行如权利要求1 ‑7任意一项的方法步骤。权 利 要 求 书 2/2 页 3 CN 114840680 A 3

.PDF文档 专利 一种实体关系联合抽取方法、装置、存储介质及终端

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体关系联合抽取方法、装置、存储介质及终端 第 1 页 专利 一种实体关系联合抽取方法、装置、存储介质及终端 第 2 页 专利 一种实体关系联合抽取方法、装置、存储介质及终端 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。