全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210220954.8 (22)申请日 2022.03.08 (71)申请人 西南石油大 学 地址 610500 四川省成 都市新都区新都大 道8号 (72)发明人 朱西平 卢星宇 肖丽娟 高昂  郭露 李映璋  (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于改进神经网络的页岩气实体识别 方法 (57)摘要 本发明提出一种基于改进神经网络的页岩 气实体识别方法, 属于页岩气与自然语 言处理领 域。 该方法首先对页岩气人工标注数据进行预处 理, 将字映射为具有上下文语义的密集向量序 列, 传输给卷积神经网络对其过滤句中局部语境 对实体识别的影 响; 再通过双向长短期记忆网络 来捕获页 岩气标注处上下文的隐藏状态, 利用注 意力机制, 关注句中标签, 通过相似信息预测字 符标签, 来解决标注不一致问题; 最终上传至条 件随机场, 对其结果进一步约束, 达到实体分类 的效果。 本发明可快速、 高效的识别页岩气领域 相关实体名称, 为页岩气智能分析系统提供首个 页岩气高精度实体识别方法。 权利要求书3页 说明书4页 附图1页 CN 114580421 A 2022.06.03 CN 114580421 A 1.一种基于改进神经网络的页岩气实体识别方法, 其特 征在于, 包括以下步骤: 1)对页岩气人工标注原始数据进行预处理, 将字逐一映射为具有上下文语义的密集向 量序列; 2)将步骤1)中所得密集向量序列上传至卷积神经网络(CNN), 通过约束卷积神经网络 中的过滤器大小, 过 滤句中局部语境对页岩气实体识别的影响, 得到过 滤后的语义特 征; 3)将步骤2)中所得语义特征上传至双向长短期记忆网络(BiLSTM), 根据语义特征上下 文序列信息来捕获标记的隐藏状态, 得到页岩气的全局语义特 征; 4)将步骤3)中全局语义特征上传至注意力机制, 通过训练其关注句中标注, 利用相似 信息预测字符标签, 来 解决人工标注数据中实体标签前后不 一致的问题; 5)将最终数据上传至条件随机场(CRF), 通过一阶线性链条件随机场联合解码, 进一步 约束其输出结果, 得到训练样本的负对 数似然损失函数, 优化其函数, 得到页岩气实体识别 结果。 2.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于, 步骤1)的详细步骤为: 在步骤1)中, 输入句子的字向量xi通过字向量层将字映射为具有上下文语义的密集向 量序列, 得到 输出向量[x1,x2,...,xN]; xi=Ewi∈RD, 式中, E∈RD×V为每个字符映射为密集向量的嵌入矩阵, D为向量维数, V为词汇量, s= [w1,w2,...,wN]为输入句子, N 为句子长度, wi∈RV为第i字向量的o ne‑hot表示。 3.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于, 步骤2)的详细步骤为: 在步骤2)中, 卷积神经网络过滤句中局部语境对页岩气实体识别的影响; 如: “2018”可 以是时间实体中的 “2018年”,也可以是无用信息中的量词; 为区分信息实体, 提取语义信 息, 用w∈RKD作为卷积神经网络中的过滤器, K为通道窗口尺寸; 使用多个窗口大小不同的过 滤器来学习上 下文语义特 征, 将过滤器提取的第i个 语义特征表示为: 式中 为 到 的字向量, f为激活函数ReLU, 则卷积神经网络 输出为 c=[c1,c1,...,cN], ci∈RM, M为过滤器编号。 4.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于, 步骤3)的详细步骤为: 在步骤3)中, Bi LSTM网络可根据长距离序列信息捕获标记的隐藏状态, 为正向隐层 输出序列, 为反向隐层输出序列; CNN网络输出c=[c1,c1,...,cN]在BiLSTM网络中作为 各时刻输入, 使 和 进行拼接, 得到Bi LSTM网络的输出b: b=[b1,b2,...,bN], 式中 为第i个字符的隐藏输出; bi∈R2S,S为BiLSTM中隐藏状态的维度: 权 利 要 求 书 1/3 页 2 CN 114580421 A 25.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于, 步骤4)的详细步骤为: 在BiLSTM 网络和CRF网络之间还存在一注意力机制; 通过训练模型关注句中标注, 利用 相似信息预测字符标签, 以解决标注不 一致问题; 用ρ=[w1,w2,...,wt,wN]作为输入句子, 通过计算句中目标词wt和其他词wi的得分函 数, 来计算两词之间相似度: score(wt,wi)=Wa|wt‑wi| 式中Wa为可训练权 重矩阵; 然后用Softmax函数将其标准 化, 生成以wt为条件的注意力权 重αt,i: 进一步为每个目标词生成一个上 下文向量 从而, 对目标词来说, 形成注意力机制输出οt: 6.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于, 5)的详细步骤为: 在步骤5)中条件随机场(CRF)是一种概率模型, 可通过相邻标签具有强相关性, 进一步 约束其输出 结果, 保证最终输出的有效性; 相比独立标签解码, 本网络使用一阶线性链CRF联合解码来提高模型效率; 用y=[y1, y2,...,yN]表示为s的标签序列, yi∈RL为第i个字符的one ‑hot表达, L为标签数; o=[o1, o2,...,oN]为CRF网络 输入,标签序列y为CRF网络 输出, 得到y与 ο 的计算公式: 式中ν(s)为全部句子s的标签序列集 合, ψ(oi,yi,yi‑1)为势函数, θ 为 参数集; 式中M∈R2S×L,T∈RL×L; 等式中θ ={M,T}, 训练样本的负对数似然损失函数, 如下: S是训练数据中的句子集, os与ys是注意力机制与Bi LSTM网络联合输出和标签序列; 最后再使用Adam优化器对训练样本 中的负对数似然损失函数进行优化, 提高页岩气实 体识别方法精度。 在CRF网络输出结果中, 选择得分最高的标签序列作为改进神经网络页岩权 利 要 求 书 2/3 页 3 CN 114580421 A 3

.PDF文档 专利 一种基于改进神经网络的页岩气实体识别方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于改进神经网络的页岩气实体识别方法 第 1 页 专利 一种基于改进神经网络的页岩气实体识别方法 第 2 页 专利 一种基于改进神经网络的页岩气实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。