全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210279697.5 (22)申请日 2022.03.21 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 杨韬  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 彭程 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 关系抽取方法、 装置、 设备、 存储介质及计算 机程序产品 (57)摘要 本申请公开一种关系抽取方法、 装置、 设备、 存储介质及计算机程序产品, 该方法包括: 在预 测待处理文本对应的实体关系序列中的第i个预 测字符时, 确定生成第i个预测字符所需的表征 信息; 基于生 成第i个预测字符所需的表征信息, 确定预设词表中各个参考字 符作为第i个预测字 符的生成概率; 各个待处理字符属于预设词表; 基于生成第i个预测字 符所需的表征信息与待处 理文本中各个待处理字符的表征信息之间的相 似度, 确定各个待处理字符作为第i个预测字符 的指针概率; 根据各个参考字符作为第i个预测 字符的生成概率以及各个待处理字符作为第i个 预测字符的指针概率, 从预设词表中确定出第i 个预测字符, 并将其添加至待处理文本对应的实 体关系序列中。 权利要求书4页 说明书24页 附图6页 CN 114625888 A 2022.06.14 CN 114625888 A 1.一种关系抽取 方法, 其特 征在于, 包括: 获取待处 理文本中各个待处 理字符的表征信息; 在预测所述待处理文本对应的实体关系序列中的第 i个预测字符时, 确定生成所述第i 个预测字符所需的表征信息; i 为正整数; 基于所述生成所述第i个预测字符所需的表征信息, 确定预设词表中各个参考字符作 为所述第i个预测字符的生成概率; 所述待处理文本中的各个待处理字符属于所述预设词 表; 基于所述生成所述第 i个预测字符所需的表征信 息与所述各个待处理字符的表征信 息 之间的相似度, 确定所述各个待处 理字符作为所述第i个预测字符的指针概 率; 根据所述各个参考字符作为所述第 i个预测字符的生成概率以及所述各个待处理字符 作为所述第i个预测字符的指针概率, 从所述预设词表中确定出所述第i个预测字符, 并将 所述第i个预测字符添加至所述待处 理文本对应的实体关系序列中。 2.如权利要求1所述的方法, 其特征在于, 所述根据所述各个参考字符作为所述第i个 预测字符的生成概率以及所述各个待处理字符作为所述第i个预测字符的指针概率, 从所 述预设词表中确定出 所述第i个预测字符, 包括: 获取生成概率权重以及指针概率权重; 所述生成概率权重是基于所述生成所述第i个 预测字符所需的表征信息确定出的, 所述 生成概率权重与所述指针概 率权重相加为1; 将所述生成概率权重分别与 所述各个参考字符作为所述第 i个预测字符的生成概率进 行相乘运算, 得到所述各个参考字符对应的加权生成概率, 以及将所述指针概率权重分别 与所述各个待处理字符作为所述第i个预测字符的指针概率进行相乘运算, 得到所述各个 待处理字符对应的加权指针概 率; 将所述各个参考字符对应的加权生成概率与所述各个待处理字符对应的加权指针概 率对应相加, 得到所述各个参考字符作为所述第i个预测字符的预测概率, 并将所述预设词 表中, 满足预测概 率条件的预测概 率所指向的参 考字符确定为所述第i个预测字符。 3.如权利要求2所述的方法, 其特征在于, 所述各个参考字符包括所述各个待处理字符 以及其他字符; 所述各个参考字符对应的加权生成概率包括所述各个待处理字符对应的加 权生成概 率以及所述 其他字符对应的加权生成概 率; 所述将所述各个参考字符对应的加权生成概率与所述各个待处理字符对应的加权指 针概率对应相加, 得到所述各个参 考字符作为所述第i个预测字符的预测概 率, 包括: 将每个所述待处理字符对应的加权生成概率与所述每个待处理字符对应的加权指针 概率对应进行求和处 理, 得到所述每 个待处理字符作为所述第i个预测字符的预测概 率; 将所述其他字符对应的加权生成概率, 确定为所述其他字符作为所述第i个预测字符 的预测概 率。 4.如权利要求1所述的方法, 其特征在于, 所述各个待处理字符的表征信 息包括所述各 个待处理字符的表征向量, 所述生成所述第i个预测字 符所需的表征信息包括生成所述第i 个预测字符所需的表征向量; 所述各个待处理字符的表征向量是调用关系抽取模型中的编 码模块, 对所述待处理文本进行关系 特征编码处理得到的; 所述关系抽取模型还包括解码 模块, 所述生成所述第i个预测字符所需的表征向量是调用所述关系抽取模型中的解码模 块, 对所述各个待处理字符的表征向量以及解码参考字符进行解码处理得到的, 其中, 当i权 利 要 求 书 1/4 页 2 CN 114625888 A 2=1时, 所述解码参考字符为特殊解码 字符, 当i>1时, 所述解码参考字 符为第i‑1个预测字 符。 5.如权利要求1所述的方法, 其特征在于, 所述各个待处理字符的表征信 息包括所述各 个待处理字符的表征向量, 所述生成所述第i个预测字 符所需的表征信息包括生成所述第i 个预测字符所需的表征向量; 所述基于所述生成所述第 i个预测字符所需的表征信 息与所述各个待处理字符的表征 信息之间的相似度, 确定所述各个待处 理字符作为所述第i个预测字符的指针概 率, 包括: 将所述各个待处理字符的表征向量与所述生成第 i个预测字符所需的表征向量进行内 积处理, 得到所述生成第i个预测字符所需的表征向量与所述各个待处理字符的表征向量 之间的相似度分布; 对所述相似度分布进行归一化处理, 得到所述各个待处理字符作为所述第i个预测字 符的指针概 率。 6.如权利要求4所述的方法, 其特征在于, 所述关系抽取模型是基于训练样本训练得到 的, 所述训练样本包括样本文本以及所述样本文本对应的实体关系 标签序列; 基于所述训 练样本对所述关系抽取模型进行训练, 包括: 调用所述关系抽取模型中的编码模块, 对所述样本文本进行关系特征编码处理, 得到 所述样本文本中各个样本 字符的表征向量; 调用所述关系抽取模型中的解码模块, 对所述各个样本字符的表征向量以及训练时解 码参考字符进 行解码处理, 得到生成第 j个训练时预测字 符所需的表征向量; 其中, j为正整 数, 当j=1时, 所述训练时解码参考字符为所述特殊解码字符, 当j>1时, 所述训练时解码 参考字符为第j ‑1个训练时预测字符; 基于所述生成所述第j个训练时预测字符所需的表征向量进行实体关系预测 处理, 得 到所述样本文本对应的实体关系预测序列; 将所述实体关系标签序列与 所述实体关系预测序列添加至训练参考信 息中, 并基于所 述训练参 考信息对所述关系抽取模型进行训练。 7.如权利要求6所述的方法, 其特征在于, 所述训练参考信息中还包括: 所述样本文本 对应的实体标签序列以及所述样本文本对应的实体预测序列; 所述 实体预测序列是调用所 述关系抽取模型中的实体预测模块对所述各个样本字符的表征向量进行实体预测处理得 到的; 所述基于所述训练参 考信息对所述关系抽取模型进行训练, 包括: 基于所述实体关系标签序列与所述实体关系预测序列之间的差异, 确定第 一损失函数 的损失值; 基于所述实体标签序列与所述实体预测序列之间的差异, 确定第二损失函数的损失 值; 基于所述第 一损失函数的损失值以及所述第 二损失函数的损失值, 确定目标损失函数 的损失值; 朝着减小所述目标损失函数的损失值的方向, 对所述关系抽取模型中的模型参数进行 调整。 8.如权利要求6或7所述的方法, 其特征在于, 在基于所述训练样本对所述关系抽取模权 利 要 求 书 2/4 页 3 CN 114625888 A 3

.PDF文档 专利 关系抽取方法、装置、设备、存储介质及计算机程序产品

文档预览
中文文档 35 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 关系抽取方法、装置、设备、存储介质及计算机程序产品 第 1 页 专利 关系抽取方法、装置、设备、存储介质及计算机程序产品 第 2 页 专利 关系抽取方法、装置、设备、存储介质及计算机程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。