说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210710873.6 (22)申请日 2022.06.22 (71)申请人 国网天津市电力公司电力科 学研究 院 地址 300384 天津市西青区海 泰华科四路8 号 申请人 国网天津市电力公司 国家电网有限公司 (72)发明人 丁一 滕飞 张磐 霍现旭 庞超 杨挺 尚学军 陈沛 吴磊 张思涵 肖文瑞 (74)专利代理 机构 天津盛理知识产权代理有限 公司 12209 专利代理师 王来佳(51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 16/901(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06Q 50/06(2012.01) (54)发明名称 一种电力故障知识图谱的构建方法和装置 (57)摘要 本发明涉及一种电力故障知识图谱的构建 方法及装置, 包括以下步骤: 步骤1、 获取待处理 数据: 获取电力故障预处理文本数据; 步骤2、 进 行数据预处理; 步骤3、 采用BERT ‑BiLSTM‑CRF组 合模型对预处理后的数据进行实体抽取; 步骤4、 采用基于依赖解析的方法识别提取实体之间的 关系, 通过识别和定位句法关系来分析句子成分 之间的依存关系; 步骤5、 知识存储和语义三元组 表示; 步骤6、 构建电力故障知识图谱; 本发明能 够提高中文实体识别和关系提取的准确性。 权利要求书2页 说明书5页 附图3页 CN 115238029 A 2022.10.25 CN 115238029 A 1.一种电力故障知识图谱的构建方法, 其特 征在于: 包括以下步骤: 步骤1、 获取待处 理数据: 获取电力故障预处 理文本数据; 步骤2、 对步骤1 获取的电力故障预处 理训练数据进行 数据预处 理; 步骤3、 采用BERT ‑BiLSTM‑CRF组合模型对预处 理后的数据进行实体抽取; 步骤4、 采用基于依赖解析的方法识别提取实体之间的关系, 通过识别和定位句法关系 来分析句子成分之间的依存关系; 步骤5、 知识存储和语义三元组表示: 所述知识存储具体包括将步骤4抽取的实体、 属性 和关系存储到数据库, 所述语义三元组表示具体包括对抽取后的知识按照三元组的形式进 行表示; 步骤6、 构建电力故障知识图谱, 将处理后的知识存入图数据库中构建电力故障知识图 谱。 2.根据权利要求1所述的一种电力故障知识图谱的构建方法, 其特征在于: 所述步骤2 的具体步骤 包括: (1)分词处理采用HMM ‑CRF的分词方法, 首先, 将预处理数据分割成词, 对单词进行排 序, 构建具有特征词频的高频词典; 然后, 使用基于CRF的分割模型对处理后的文献再次进 行分割, 其 导入为高频词典; 最终得到高精度的分割结果。 (2)词向量表示使用Word2vec模型来表示文本数据, 从通过计算词向量之间的余弦相 似度来计算同义词, 得到的语料库中的词向量 也可以作为后续实体识别模型的输入。 (3)关键词提取和本体字典构建, 根据 频率权重和平均信息熵的均值提取高频关键词, 通过人工筛选去除不相关的词, 构建本体字典。 3.根据权利要求1所述的一种电力故障知识图谱的构建方法, 其特征在于: 所述BERT ‑ BiLSTM‑CRF组合模型包括: (1)BERT层: 通过多层神经网络进行特征提取和训练, 将输入文本转换成词向量, 使 BiLSTM层学习上下文特征; BERT模型将输入序列转化为T okens、 Segments和Position s三个 特征的综合embedding, 然后输入到模型中提取, 它使用自注 意力机制和全 连接层对输入文 本进行建模。 (2)BiLSTM层: 自动提取句子上下文的特征, 每个BiLSTM单元的输入是一个动态词向量 序列; 然后BiLSTM单元学习如何提取句子的局部特征; 最后, 前向LSTM模 型输出隐藏状态序 列, 后向LSTM模 型根据句子序列拼接所有隐藏状态序列, 得到完整的 隐藏状态序列; 相关数 据可以通过公式得到: it= δ(Wi*[ht‑1, xt]+bt) (1) ft= δ(Wf*[ht‑1, xt]+bf) (2) Ot= δ(Wo*[ht‑1, xt]+bo) (3) Ct=ft*Ct‑1+it*tan(Wc*[ht‑1, xt]+bc) (4) ht=Ot*tanh(Ct) (5) 式(1‑5)中it、 ft、 Ot表示每个LSTM单元的三个门控单元: 输入门、 遗忘门和输出门。 Ct表 示输出层在时间t的输出状态, ht表示隐藏层在时间t的输出状态; xt表示时间t的输入。 δ() 是激活函数, tanh()是双曲正切激活函数。 Wi、 Wf、 Wo表示隐藏状态向量ht和输入向量xt的权 重矩阵, 而bi、 bf、 bo和bc表示偏移向量。权 利 要 求 书 1/2 页 2 CN 115238029 A 2(3)CRF层: 是一个无向图表示的联合概率分布图模型, 将局部特征归一化为全局特征, 通过计算整个序列的概率分布来解决部分标注偏差的问题, 得到全局最优解; 同时, CRF模 型在训练数据时可以得到标签的隐藏约束规则。 4.根据权利要求1所述的一种电力故障知识图谱的构建方法, 其特征在于: 所述步骤4 的具体方法为: 首先, 通过语义角色识别提取主语和核心谓语; 然后, 通过依存句法分析, 找到与核心 谓词意义相关的宾语和主语; 最后通过依存句法分析得到电力故障文本中的相关依存关 系, 以及基于 本体结构的实体关系。 5.一种电力故障知识图谱构建装置, 其特 征在于: 包括: 数据获取模块, 用于获取待处 理数据, 获取电力故障预处 理文本; 数据预处理模块, 用于对所述电力故障预处理文本进行预处理, 对电力故障文本进行 分词, 获取词向量, 提取关键词以及构建本体字典; 模型训练模块, 用于对所述待处理电力故障文本进行实体抽取和关系抽取, 获取预处 理数据中的词向量, 将所述词向量输入双向长短时记忆网络进行实体抽取, 并根据依赖解 析提取实体关系; 图谱构建模块, 配置为根据所述模型训练模块抽取出的实体和关系, 生成包括有所述 各实体和所述各实体之间关系的知识图谱。权 利 要 求 书 2/2 页 3 CN 115238029 A 3
专利 一种电力故障知识图谱的构建方法和装置
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:55:38
上传分享
举报
下载
原文档
(491.9 KB)
分享
友情链接
YD-T 3813-2020 基础电信企业数据分类分级方法.pdf
GB-T 25052-2010 连续热浸镀层钢板和钢带尺寸、外形、重量及允许偏差.pdf
DB3308-T 067-2020 “三衢味”区域公用品牌准入和管理规范 衢州市.pdf
猴子无限 构建企业级的私有大模型.pdf
GB-T 31516-2015 邻苯二甲酸酐危险特性分类方法.pdf
GM-T 0003.5-2012 SM2椭圆曲线公钥密码算法第5部分:参数定义.pdf
GB-T 32308-2015 GEO卫星任务后处置要求.pdf
GB-T 34502-2017 封装键合用镀金银及银合金丝.pdf
SN-T 0987.2-2014 出口危险货物中型散装货物包装容器检验规程 第2部分:使用鉴定.pdf
T-INFOCA 8—2022 移动直播视频用户体验质量 QoE 观众端评测方法.pdf
NB-T 10795—2021 生物质气化多联产系统技术导则.pdf
GB-T 36558-2018 电力系统电化学储能系统通用技术条件.pdf
滨州市河道管理办法.pdf
CISP-PTE 知识体系大纲.pdf
DL-T 294.3-2019 发电机灭磁及转子过电压保护装置技术条件 第3部分 转子过电压保护.pdf
YD-T 3982-2021 数据中心液冷系统冷却液体技术要求和测试方法.pdf
ISO 21780 2020 Road vehicles — Supply voltage of 48 V — Electrical requirements and tests.pdf
GB-T 34503-2017 钨管.pdf
T-CAAPA 0005—2023 无动力游乐设施 绳网.pdf
GB-T 38556-2020 信息安全技术 动态口令密码应用技术规范.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(491.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。