(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210220954.8
(22)申请日 2022.03.08
(71)申请人 西南石油大 学
地址 610500 四川省成 都市新都区新都大
道8号
(72)发明人 朱西平 卢星宇 肖丽娟 高昂
郭露 李映璋
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于改进神经网络的页岩气实体识别
方法
(57)摘要
本发明提出一种基于改进神经网络的页岩
气实体识别方法, 属于页岩气与自然语 言处理领
域。 该方法首先对页岩气人工标注数据进行预处
理, 将字映射为具有上下文语义的密集向量序
列, 传输给卷积神经网络对其过滤句中局部语境
对实体识别的影 响; 再通过双向长短期记忆网络
来捕获页 岩气标注处上下文的隐藏状态, 利用注
意力机制, 关注句中标签, 通过相似信息预测字
符标签, 来解决标注不一致问题; 最终上传至条
件随机场, 对其结果进一步约束, 达到实体分类
的效果。 本发明可快速、 高效的识别页岩气领域
相关实体名称, 为页岩气智能分析系统提供首个
页岩气高精度实体识别方法。
权利要求书3页 说明书4页 附图1页
CN 114580421 A
2022.06.03
CN 114580421 A
1.一种基于改进神经网络的页岩气实体识别方法, 其特 征在于, 包括以下步骤:
1)对页岩气人工标注原始数据进行预处理, 将字逐一映射为具有上下文语义的密集向
量序列;
2)将步骤1)中所得密集向量序列上传至卷积神经网络(CNN), 通过约束卷积神经网络
中的过滤器大小, 过 滤句中局部语境对页岩气实体识别的影响, 得到过 滤后的语义特 征;
3)将步骤2)中所得语义特征上传至双向长短期记忆网络(BiLSTM), 根据语义特征上下
文序列信息来捕获标记的隐藏状态, 得到页岩气的全局语义特 征;
4)将步骤3)中全局语义特征上传至注意力机制, 通过训练其关注句中标注, 利用相似
信息预测字符标签, 来 解决人工标注数据中实体标签前后不 一致的问题;
5)将最终数据上传至条件随机场(CRF), 通过一阶线性链条件随机场联合解码, 进一步
约束其输出结果, 得到训练样本的负对 数似然损失函数, 优化其函数, 得到页岩气实体识别
结果。
2.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于,
步骤1)的详细步骤为:
在步骤1)中, 输入句子的字向量xi通过字向量层将字映射为具有上下文语义的密集向
量序列, 得到 输出向量[x1,x2,...,xN];
xi=Ewi∈RD,
式中, E∈RD×V为每个字符映射为密集向量的嵌入矩阵, D为向量维数, V为词汇量, s=
[w1,w2,...,wN]为输入句子, N 为句子长度, wi∈RV为第i字向量的o ne‑hot表示。
3.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于,
步骤2)的详细步骤为:
在步骤2)中, 卷积神经网络过滤句中局部语境对页岩气实体识别的影响; 如: “2018”可
以是时间实体中的 “2018年”,也可以是无用信息中的量词; 为区分信息实体, 提取语义信
息, 用w∈RKD作为卷积神经网络中的过滤器, K为通道窗口尺寸; 使用多个窗口大小不同的过
滤器来学习上 下文语义特 征, 将过滤器提取的第i个 语义特征表示为:
式中
为
到
的字向量, f为激活函数ReLU, 则卷积神经网络 输出为
c=[c1,c1,...,cN], ci∈RM, M为过滤器编号。
4.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于,
步骤3)的详细步骤为:
在步骤3)中, Bi LSTM网络可根据长距离序列信息捕获标记的隐藏状态,
为正向隐层
输出序列,
为反向隐层输出序列; CNN网络输出c=[c1,c1,...,cN]在BiLSTM网络中作为
各时刻输入, 使
和
进行拼接, 得到Bi LSTM网络的输出b:
b=[b1,b2,...,bN],
式中
为第i个字符的隐藏输出; bi∈R2S,S为BiLSTM中隐藏状态的维度:
权 利 要 求 书 1/3 页
2
CN 114580421 A
25.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于,
步骤4)的详细步骤为:
在BiLSTM 网络和CRF网络之间还存在一注意力机制; 通过训练模型关注句中标注, 利用
相似信息预测字符标签, 以解决标注不 一致问题;
用ρ=[w1,w2,...,wt,wN]作为输入句子, 通过计算句中目标词wt和其他词wi的得分函
数, 来计算两词之间相似度:
score(wt,wi)=Wa|wt‑wi|
式中Wa为可训练权 重矩阵;
然后用Softmax函数将其标准 化, 生成以wt为条件的注意力权 重αt,i:
进一步为每个目标词生成一个上 下文向量
从而, 对目标词来说, 形成注意力机制输出οt:
6.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法, 其特征在于,
5)的详细步骤为:
在步骤5)中条件随机场(CRF)是一种概率模型, 可通过相邻标签具有强相关性, 进一步
约束其输出 结果, 保证最终输出的有效性;
相比独立标签解码, 本网络使用一阶线性链CRF联合解码来提高模型效率; 用y=[y1,
y2,...,yN]表示为s的标签序列, yi∈RL为第i个字符的one ‑hot表达, L为标签数; o=[o1,
o2,...,oN]为CRF网络 输入,标签序列y为CRF网络 输出, 得到y与 ο 的计算公式:
式中ν(s)为全部句子s的标签序列集 合, ψ(oi,yi,yi‑1)为势函数, θ 为 参数集;
式中M∈R2S×L,T∈RL×L; 等式中θ ={M,T},
训练样本的负对数似然损失函数, 如下:
S是训练数据中的句子集, os与ys是注意力机制与Bi LSTM网络联合输出和标签序列;
最后再使用Adam优化器对训练样本 中的负对数似然损失函数进行优化, 提高页岩气实
体识别方法精度。 在CRF网络输出结果中, 选择得分最高的标签序列作为改进神经网络页岩权 利 要 求 书 2/3 页
3
CN 114580421 A
3
专利 一种基于改进神经网络的页岩气实体识别方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:29上传分享