全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210206991.3 (22)申请日 2022.03.04 (71)申请人 贵州电网有限责任公司 地址 550002 贵州省贵阳市南明区滨河路 17号 (72)发明人 彭军 王立 孙斌 来传剑 周海  杨杰 李雪凌 李阳  (74)专利代理 机构 南京禹为知识产权代理事务 所(特殊普通 合伙) 32272 专利代理师 王晓东 (51)Int.Cl. G06F 16/36(2019.01) G06N 20/20(2019.01) G06N 5/02(2006.01) G06N 3/04(2006.01)G06K 9/62(2022.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于集成学习的变电站选址知识抽取 方法 (57)摘要 本发明公开了一种基于集成学习的变电站 选址知识抽取方法, 包括如下步骤, 采集变电站 工程选址相关标准和规范, 作为训练集数据; 将 LSTM‑LSTM‑Bias模型和BERT ‑BIGRU‑CRF模型进 行结合改进, 形 成BcBERT ‑BiGRU‑LSTM模型; 利用 训练数据集和bagging算法训练依次对LSTM ‑ LSTM‑Bias模型、 BERT ‑BIGRU‑CRF模型和BcBERT ‑ BiGRU‑LSTM模型进行数据训练得到三个个体学 习器和三种预测实体关系集合; 使用投票方式将 三个个体学习器进行组合, 投票结果则为最终的 预测结果, 即获得实体关系集合; 对获得的实体 集合进行属性抽取。 本发明所述方法将集成学习 中的bagging算法应用于知 识图谱中的实体关系 联合抽取技术中, 提高系统的泛化能力, 减少整 体的错误率, 提高对变电站规范文本中实体和关 系的识别效果。 权利要求书2页 说明书6页 附图1页 CN 115033702 A 2022.09.09 CN 115033702 A 1.一种基于集成学习的变电站选 址知识抽取 方法, 其特 征在于: 包括如下步骤, 采集变电站工程选 址相关标准和规范, 作为训练集数据; 将LSTM‑LSTM‑Bias模型和BERT ‑BIGRU‑CRF模型进行结合改进, 形成BcBERT ‑BiGRU‑ LSTM模型; 利用训练数据集和bagging算法训练依次对LSTM ‑LSTM‑Bias模型、 BERT ‑BIGRU‑CRF模 型和BcBERT ‑BiGRU‑LSTM模型进行数据训练得到三个个体学习器和三种预测实体关系集 合; 使用投票方式将三个个体学习器进行组合, 投票结果则为最终的预测结果, 即获得实 体关系集 合; 对获得的实体集合进行属性抽取, 至此获得训练数据集的实体、 关系和属性集合, 即完 成知识抽取工作。 2.如权利要求1所述的基于集成学习的变电站选址知识抽取方法, 其特征在于: 创建 BcBERT‑BiGRU‑LSTM模型包括如下步骤: 构造词嵌入层, 该层由变电站知识选址知识文本和通用领域BERT组成, 将单词转化成 词嵌入向量; 构造编码层, 其由两个并行的GRU组成; 构造解码层, 其由一个LSTM网络层构成, 用于产生标记序列; 构造output ‑software层, 将解码层的输出向量进行归一化处理, 创建BcBERT ‑BiGRU‑ LSTM模型。 3.如权利要求2所述的基于集成学习的变电站选址知识抽取方法, 其特征在于: 获得三 个不同的个 体学习器和三种预测实体关系集 合包括如下步骤, 用训练数据集和bagging算法训练训练BcBERT ‑BiGRU‑LSTM模型得到个体学习器1, 并 获得个体学习器1的预测实体关系集 合entity ‑relat1; 用训练数据集和bagging算法训练训练LSTM ‑LSTM‑Bias模型得到个体学习器2, 并获得 个体学习器2的预测实体关系集 合entity ‑relat2; 用训练数据集和bagging算法训练训练BERT ‑BIGRU‑CRF模型得到个体学习器3, 并获得 个体学习器3的预测实体关系集 合entity ‑relat3。 4.如权利要求1~3任一所述的基于集成学习的变电站选址知识抽取方法, 其特征在 于: 所述bagging算法中, 输入样本集D={(x1, y1), (x2, y2), ...., (xm, ym)}, 弱分类器迭代次 数T, 最终输出强分类器f(x), 对训练集进行t次随机采样, 其中t=1, 2, ..., T, 共采样n次, 得到采样集Dt, 通过采样集Dt训练三种模型。 5.如权利要求4所述的基于集成学习的变电站选址知识抽取方法, 其特征在于: 获得实 体关系集 合包括如下步骤, 对entity—relat1和entity—relat2进行投票, 将其中相同的元素保留下来, 并将其 存放于公共集 合entity_al l当中; 对entity—relat2和entity—relat3进行投票, 将其中相同的元素保留下来, 同时判 断集合entity_all中是否存在这些元素, 已存在的元素不再重复添加, 将集合entity_all 中不存在的元 素添加到集 合entity_al l中; 对entity—relat1和entity—relat3进行投票, 将其中相同的元素保留下来, 同时判权 利 要 求 书 1/2 页 2 CN 115033702 A 2断集合entity_all中是否存在这些元素, 已存在的元素不再重复添加, 将集合entity_all 中不存在的元 素添加到集 合entity_al l中。 6.如权利要求5所述的基于集成学习的变电站选址知识抽取方法, 其特征在于: 对获得 的实体集 合进行属性抽取时, 采用Bi LSTM‑CRF模型进行抽取。 7.如权利要求6所述的基于集成学习的变电站选址知识抽取方法, 其特征在于: 使用 BiLSTM‑CRF模型对 所述实体集合进 行所述训练集数据的属性抽取, 并得到属性集合包括以 下步骤: 使用skip‑gram和CBOW方法获得词向量; 对获得的词向量进行双向信息读取, 从而更好 地获取上下文信息; 对获得的上 下文信息进行序列标注和分词任务, 进 而可以抽取 出属性和 属性值。 8.如权利要求2或3所述的基于集成学习的变电站选址知识抽取方法, 其特征在于: 构 造词嵌入层时, 一个句子表示为长度为L的序列, 每个单词用多维的向量wi表示, 即W= {w1, ..., wn}。 9.如权利要求8所述的基于集成学习的变电站选址知识抽取方法, 其特征在于: 构造编 码层时, 根据当前时刻输入量wi、 前一个时刻记忆单元输出向量yt‑1、 前一个时刻隐藏层的 状态ht‑1的共同作用得到当前隐藏层的状态向量ht。 10.如权利要求9所述的基于集成学习的变电站选址知识抽取方法, 其特征在于: 构造 解码层时, 根据前一个时刻的记忆单元输出的向量yt‑1、 预测的结果Tt‑1、 隐藏层状态ht‑1和 当前时刻的隐藏层状态ht计算出当前时刻隐藏层状态。权 利 要 求 书 2/2 页 3 CN 115033702 A 3

.PDF文档 专利 一种基于集成学习的变电站选址知识抽取方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于集成学习的变电站选址知识抽取方法 第 1 页 专利 一种基于集成学习的变电站选址知识抽取方法 第 2 页 专利 一种基于集成学习的变电站选址知识抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。