全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211163224.5 (22)申请日 2022.09.22 (71)申请人 中国地质大 学 (武汉) 地址 430074 湖北省武汉市洪山区鲁磨路 388号 (72)发明人 王权于 胡君 陈冠宇 曹诗豪  吕国斌  (74)专利代理 机构 北京知联天下知识产权代理 事务所(普通 合伙) 11594 专利代理师 张迎新 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/205(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种高切坡实体关系抽取方法及装置 (57)摘要 本发明涉及机器学习技术领域, 特别涉及一 种高切坡实体 关系抽取方法及装置, 为解决利用 现有的知识库对原始文本的句子进行机器自动 化标注这类解决方法现有的技术不能有效准确 标注, 导致语料库中存在错误标注数据的问题。 本发明在传统PCNN模型的基础上引 入了BERT预 训练层, 在词表示学习进行上进行优化, 使词向 量包含上下文语义信息更丰富, 在此基础上加入 实体对的位置嵌入信息, 能够 进一步丰富句子的 特征信息。 PCNN模型在远程监督实体关系抽取任 务中取得良好的效果, 其分段池化可以从实体对 的相对位置间学习到更多的特征信息, 使模型的 最终预测结果取得更好的效果。 权利要求书2页 说明书7页 附图3页 CN 115544253 A 2022.12.30 CN 115544253 A 1.一种高切坡实体关系抽取 方法, 其特 征在于, 所述方法包括: 使用BERT模型对高切坡实体关系语料进行预训练处理, 获取包含上下文信息的词向 量; 以所述词向量与位置向量的拼接作为文本特征输入到基于句子级注意力机制的PCNN 模型, 经过卷积、 分段最大池化后输出包 含上下文信息的句子特 征向量; 将所述句子特征向量输入到关系预测层通过Softmax分类器对包的关系类型进行分 类, 输出分类结果, 得到高切坡实体关系。 2.根据权利要求1所述的一种高切坡实体关系抽取方法, 其特征在于, 所述使用BERT模 型对高切坡实体关系语料进行 预训练处理, 获取包 含上下文信息的词向量, 包括: 根据BERT模型的句子编码层对输入的文本计算得到每 个句子的特 征信息; 所述词向量为, 采用的BERT预训练词向量加上实体相对位置的位置向量, 作为远程监 督实体关系抽取模型的输入特 征向量; 所述位置向量是当前词与实体的相对距离作为特 征编码而成的向量。 3.根据权利要求1所述的一种高切坡实体关系抽取 方法, 其特 征在于, 所述经过卷积、 分段最大池化后输出包 含上下文信息的句子特 征向量之后, 还 包括: 将包含同一实体对 的多个句子特征向量一起输入到Attention层, 在包层面上做句子 级的Attention, 通过加权平均得到包的特 征向量。 4.根据权利要求1所述的一种高切坡实体关系抽取方法, 其特征在于, 所述将所述句子 特征向量输入到关系预测层通过Softmax分类器对包的关系类型进行分类, 输出分类结果, 包括: 包的特征向量, 通过Softmax计算得到高切坡文本关系类型的概率分布, 用y表 示关系 类别标签, 对于给定实体对S, 通过Softmax函数计算实体对S属于关系类别y的概率p, 取p中 概率值最高的作为实体对S的关系类别。 5.根据权利要求 4所述的一种高切坡实体关系抽取 方法, 其特 征在于, 所述关系类别标签y的计算公式为: p(y|s)=Softmax(wcS+bc) 其中c为关系类别数量, w、 b表示模型训练出的参数, y表示关系类别标签, S表示实体 对。 6.根据权利要求1所述的一种高切坡实体关系抽取 方法, 其特 征在于, 模型训练过程中使用Dropout技 术。 7.根据权利要求6所述的一种高切坡实体关系抽取 方法, 其特 征在于, 选用的优化器为Adadelta算法来进行优化计算。 8.一种高切坡实体关系抽取装置, 其特 征在于, 包括, 预处理单元, 用于使用BERT模型对高切坡实体关系语料进行预训练处理, 获取包含上 下文信息的词向量; 分析单元, 用于以所述词向量与位置向量的拼接作为文本特征输入到基于句子级注意 力机制的PCN N模型, 经 过卷积、 分段最大池化后输出包 含上下文信息的句子特 征向量; 预测单元, 用于将所述句子特征向量输入到关系预测层通过Softmax分类器对包 的关权 利 要 求 书 1/2 页 2 CN 115544253 A 2系类型进行分类, 输出分类结果, 得到高切坡实体关系。 9.根据权利要求8所述的一种高切坡实体关系抽取装置, 其特 征在于, 所述预处理单元, 具体用于: 句子编码层输入向量在BERT预训练词向量的基础上, 采用 的BERT预训练词向量加上实体相对位置的位置向量, 作为远程监督 实体关系抽取模型的输 入特征向量; 所述位置向量是当前词与实体的相对距离作为特 征编码而成的向量。 10.根据权利要求8或9所述的一种高切坡实体关系抽取装置, 其特 征在于, 所述分析单元, 还用于: 包含同一实体对的多个句子特征向量一起输入到Attention 层, 在包层面上做句子级的A ttention, 通过加权平均得到包的特 征向量。权 利 要 求 书 2/2 页 3 CN 115544253 A 3

.PDF文档 专利 一种高切坡实体关系抽取方法及装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种高切坡实体关系抽取方法及装置 第 1 页 专利 一种高切坡实体关系抽取方法及装置 第 2 页 专利 一种高切坡实体关系抽取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:41:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。