全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211044230.9 (22)申请日 2022.08.30 (71)申请人 广东电网有限责任公司广州供电局 地址 510620 广东省广州市天河区天河南 二路2号 (72)发明人 龙云 卢有飞 刘璐豪 梁雪青  吴任博 张扬 赵宏伟 陈明辉  张少凡 邹时容 蔡燕春 刘璇  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 杨望仙 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 16/36(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于改进型Tran sformer编码器对电力缺陷 文本的实体信息抽取方法 (57)摘要 本发明涉及于人工智能与电力系统交叉领 域, 为基于改进型Transformer编码器对电力缺 陷文本的实体信息抽取方法。 该方法通过引入预 训练语言模型、 词典、 微调TENER模型和条件随机 场模型, 搭建CW G‑TENER模型, 利用带标注的电力 系统二次设备缺陷文本, 对模型进行优化训练和 测试选择, 得到电力设备缺陷文本信息抽取模 型, 将待抽取信息的电力设备缺陷文本输入电力 设备缺陷文本信息抽取模型, 得到所抽取的信 息。 本发明可用于对电力系统二次设备缺陷文本 中涉及到的实体信息进行抽取, 可以在电力系统 二次设备 出现故障时提供辅助决策作用。 权利要求书3页 说明书10页 附图2页 CN 115470786 A 2022.12.13 CN 115470786 A 1.基于改进型Transformer编码器对电力缺 陷文本的实体信息抽取方法, 其特征在于, 包括以下步骤: S1、 引入电力系统二次设备缺陷记录数据文本, 对数据文本进行 标注; S2、 引入预训练模型、 词典、 微调TENER模型和条件随机场模型, 搭建CWG ‑TENER模型, 利 用带标注的数据文本对CWG ‑TENER模型进行优化训练, 得到电力设备缺陷文本信息抽取模 型; S3、 将待抽取信息的 电力设备缺陷文本输入电力设备缺陷文本信息抽取模型, 得到所 抽取的信息 。 2.根据权利要求1所述的基于改进型Transformer编码器对电力缺陷文本的实体信息 抽取方法, 其特 征在于, 所述对数据文本进行 标注, 包括: 将数据文本中表征缺陷现象的短语首字标注为 “B”, 短语中其余字符标注为 “I”, 文本 中不表征缺陷现象的字符标注为 “O”。 3.根据权利要求1所述的基于改进型Transformer编码器对电力缺陷文本的实体信息 抽取方法, 其特 征在于, 所述 步骤S2包括: S21、 引入预训练模型和词典, 提取数据文本的字符向量和词典词语的词语向量, 所述 词典是基于若干原 始语料分词得到; S22、 提取出的字符向量构成字符向量集合C, 将数据文本与词典中词语进行匹配, 将匹 配到的词语对应的词语向量构成词语向量 集合W; S23、 搭建字词图CWG模型; S24、 将Transformer模型的CRF层替换为全连接层, 使输出维度和字词语向量维度相 同, 得到微调TENER模型; S25、 将字符向量集合C和词语向量集合W作为微调TENER模型的输入, 得到输出结点特 征向量初值C0和边的特征向量初值W0, 将结点特征向量初值C0和边的特征向量初值W0分别 替代CWG模型的结点和CWG模型的边, 定义CWG模型全局变量的初值 为g0; S26、 分别对CWG模型的结点、 CWG模型的边和CWG模型的全局变量进行聚合计算, 得到第 一次聚合后的字符向量 词语向量 和全局向量 S27、 以字符向量 词语向量 和全局向量 替换CWG模型的结点、 CWG模型的边和 CWG模型的全局变量; S28、 通过微调TENER模型对字符向量、 词语向量进行更新, 通过LSTM 网络状态更新公式 计算全局向量的更新输出; S29、 将更新后的字符向量、 词语向量、 全局向量分别替代CWG模型的结点、 CWG模型的边 和CWG模型的全局变量, 对CWG模型的结点、 CWG模型的边和CWG模型的全局变量进行聚合; S210、 循环T次所述 步骤S28到步骤S2 9, 得到最终的字符特 征向量集合; S211、 将最终的字符特征向量集合输入条件随机场模型CRF, 计算得到输出最佳标签序 列; S212、 依据最佳标签序列利用Adam优化器对模型参数进行优化, 循环训练预定次数, 得 到电力设备缺陷文本信息抽取模型。 4.根据权利要求3所述的基于改进型Transformer编码器对电力缺陷文本的实体信息权 利 要 求 书 1/3 页 2 CN 115470786 A 2抽取方法, 其特征在于, 所述预训练模型为BERT模型、 BERT ‑wwm模型和ERNIE模型中的任意 一种。 5.根据权利要求3所述的基于改进型Transformer编码器对电力缺陷文本的实体信息 抽取方法, 其特征在于, 所述CWG模型为一个由数据文本信息构成的有向图, 其中字符向量 构成图的结点, 词语向量 构成从字符bj对应结点指向字符ej对应结点的边。 6.根据权利要求3所述的基于改进型Transformer编码器对电力缺陷文本的实体信息 抽取方法, 其特征在于, 所述步骤S26的分别对CWG模型的结点、 CWG模 型的边和CWG模 型的全 局变量进行聚合计算, 其中, 对CWG模型的结点的聚合公式为: 其中, i表示第i个字符, t表示第t轮更新, 为第t轮聚合前字符结点的特征向量, 为 聚合后的字符结点特征向量, 为 的前驱结点特征向量, 为 的入边特征 向量, 表示拼接两向量, MultiA tt()表示采用多头注意力的方式进行聚合; 对CWG模型的边的聚合公式为: 其中, 为第t轮聚合前从结点b指向结点e 的边的特征向量, 为聚合后该边的特 征向量, 为与边wb,e对应词语匹配的所有字符对应特 征向量组成的集 合; 对CWG模型的全局变量的计算公式为: 其中, 为输入文本序列中所有字符对应特征向量组成的集合, 为匹配到的所有词语对应的词语向量构成词语向量集合, gt为第t轮聚合前的全 局向量, 为第t轮聚合过程中融入字符向量信息后的全局向量, 为第t轮聚合过程中融 入词语向量信息后的全局向量, 为第t轮聚合所 得的最终全局向量。 7.根据权利要求3所述的基于改进型Transformer编码器对电力缺陷文本的实体信息 抽取方法, 其特 征在于, 所述 步骤S28包括: S281、 根据字符结点的特征向量进行t轮聚合, 将t轮聚合的输出加入位置编码作 为N头 的微调TENER模型输入, 得到更新后的字符向量; S282、 根据边的特征向量进行t轮聚合, 将t轮聚合的输出加入位置编码作 为N头的微调 TENER模型输入, 得到更新后的词语向量; S283、 通过LSTM网络状态更新公式计算更新全局变量 得到gt+1, 计算公式为: 权 利 要 求 书 2/3 页 3 CN 115470786 A 3

.PDF文档 专利 基于改进型Transformer编码器对电力缺陷文本的实体信息抽取方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进型Transformer编码器对电力缺陷文本的实体信息抽取方法 第 1 页 专利 基于改进型Transformer编码器对电力缺陷文本的实体信息抽取方法 第 2 页 专利 基于改进型Transformer编码器对电力缺陷文本的实体信息抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:42:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。