全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210989620.7 (22)申请日 2022.08.18 (65)同一申请的已公布的文献号 申请公布号 CN 115080752 A (43)申请公布日 2022.09.20 (73)专利权人 湖南大学 地址 410082 湖南省长 沙市岳麓区麓山 南 路1号 (72)发明人 金敏 宁子帆  (74)专利代理 机构 长沙楚为知识产权代理事务 所(普通合伙) 43217 专利代理师 陶祥琲 (51)Int.Cl. G06F 16/35(2019.01) G06N 5/02(2006.01)G06F 16/951(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (56)对比文件 CN 106202561 A,2016.12.07 CN 107301171 A,2017.10.27 CN 106649662 A,2017.0 5.10 CN 112966447 A,2021.0 6.15 CN 111737495 A,2020.10.02 CN 112487991 A,2021.0 3.12 审查员 方媛 (54)发明名称 基于特征领域知识自动获取的数值特征发 现方法及系统 (57)摘要 本发明公开一种基于特征领域知识自动获 取的数值特征发现方法及系统, 包括: 获取预测 数据所属领域相关的公开信息; 构建相关的文本 信息库; 对文本信息库进行文本挖掘与文本特征 聚类; 在文本挖掘的信息引导下获取预测数据所 属领域的相关数据特征构建多元溯源 数据库; 对 多元溯源数据库进行初步评价筛选, 根据需要选 择数据集特征数量, 构建多元溯源数据集; 结果 预测。 本发 明提供的数值特征发现方法无需领域 前置知识, 可以应用于电力负荷、 新能源负荷、 金 融股票市场、 交通流量等多个领域的波动预测或 分类, 能够发现大量各领域中隐含的主导特征, 显著提高预测的准确率; 并可根据该领域内信息 的增长而实时更新。 权利要求书2页 说明书11页 附图2页 CN 115080752 B 2022.12.02 CN 115080752 B 1.一种基于特征领域知识自动获取的数值特征发现方法, 其特征在于, 具体包括如下 步骤: S1、 获取预测数据所属领域相关的公开信息, 预测数据包括: 电力负荷、 新能源负荷、 交 通流量; 其所属领域对应为: 电力负荷领域、 新能源负荷领域、 交通流量领域; 所述相关的公 开信息包括该预测数据所属领域相关的综述性文章、 调查报告、 新闻、 开放论坛以及其相关 评论; 获取预测数据所属领域相 关的公开信息的方法具体包括: 在遵守ROBOT协议的前提下 通过爬虫 方式, 获取 该领域最新的文本信息; S2、 将步骤S1 获取的公开信息集中存 储构建预测数据所属领域相关的文本信息库; S3、 对构建的文本信息库进行文本挖掘与文本特征聚类, 将离散的定性知识聚集, 得到 预测数据所属领域相关的特征词, 并通过聚类进行初步分类; 步骤S3中采用如下公式所示 的DCW算法对该 领域的相关文本信息库进行文本挖掘: 其中: 表示相关的文本信息库中单词word1, word2之间的相似性, 通 过词向量夹角的余弦值来表现; 表示相关文本信息库中单词word1, word2之间的独立性, 通过文本点互信息PMI表示; word1为该领域的波动词, word2为遍历文 章后的每一个单词; S4、 在文本挖掘的信 息引导下构建预测数据 所属领域的相关数据 特征组成的多元溯源 数据库, 多 元溯源数据库包含文本引导特征、 领域暨定特征、 传统特征发现领域基于经验所 选择的特 征; S5、 对多元溯源数据库进行初步评价筛选, 根据需要选择数据集特征数量, 构建多元溯 源数据集; 通过LV ‑KB方法对多源溯源数据库进行初步评价筛 选, 具体如下: 首先, 利用方差阈值过滤方法进行特征初选, 该方法具体是通过方差阈值估计器计算 每一项特征在所有样本中重复元素所占的比例, 若重复元素占比超过一定阈值则去除该项 特征; 然后, 通过SelectKB est方法进行进一步特征提取, 具体是选取单变量线性回归函数作 为得分函数; 由单变量线性回归函数计算每 个特征与标签之间的相关性; 最后、 根据得分排序情况进行, 由高到低根据数量需要 进行特征选择; S6、 采用机器学习算法或深度学习算法对多元溯源数据集动态学习 并进行结果预测; 具体对应进行电力负荷、 新能源负荷、 交通 流量的预测或分类。 2.根据权利要求1所述的基于特征领域知识自动获取的数值特征发现方法, 其特征在 于, 步骤S1中爬虫 方式包括聚焦爬虫、 通用爬虫、 增量爬虫以及深层网络 爬虫; 信息抽取对象包括所属领域权威 开源信息网站、 权威分析网站以及相关新闻网站; 步骤S1中还 包括对爬取的文本信息进行初步的人工提取, 以提高后续 算法运行效率。 3.根据权利要求1所述的基于特征领域知识自动获取的数值特征发现方法, 其特征在权 利 要 求 书 1/2 页 2 CN 115080752 B 2于, 步骤S2构建的文本信息库具有删改能力, 方便后续对文本信息库进行升级和更新。 4.根据权利要求1 ‑3任一所述的基于特征领域知识自动获取的数值特征发现方法, 其 特征在于, 步骤S3中采用K ‑means算法对该 领域的相关文本信息库进行文本特 征聚类。 5.根据权利要求1 ‑3任一所述的基于特征领域知识自动获取的数值特征发现方法, 其 特征在于, 步骤S6中, 所述机器学习算法包括SVR算法、 GB RT算法、 MLPR算法; 所属深度学习 算法包括LSTM算法、 GRU算法、 Transformer  model算法, 选取算法进行模型构建, 选择预测 案例, 学习多元溯源候选数据集并进行 结果预测。 6.根据权利要求1 ‑3任一所述的基于特征领域知识自动获取的数值特征发现方法, 其 特征在于, 还包括将步骤S6得到的预测结果与现有研究进行横向比对, 对现有研究进行补 充。 7.一种基于特征领域知识自动获取的数值特征发现系统, 其特征在于, 采用权利要求 1‑6任一所述的基于特 征领域知识自动获取的数值特 征发现方法, 具体包括: 网页爬虫模块,  用于获取 预测数据所属领域相关的公开信息; 文本信息库构建模块, 用于对网页爬虫模块获取的文本信息汇集整理, 构建文本信息 库; 文本挖掘与文本特征聚类模块, 用于对构建的文本信 息库中的信 息进行文本挖掘与文 本特征聚类, 将 离散的定性知识聚集, 得到预测数据所属领域相关的特征词, 并通过聚类进 行初步分类; 多元溯源数据库构建模块, 用于在文本挖掘的信 息引导下构建预测数据 所属领域的相 关数据特征组成的多 元溯源数据库, 多 元溯源数据库包含文本引导特征、 领域暨定特征、 传 统特征发现领域基于经验所选择 特征; 将定量的文本特 征转换为定性的数字特 征; 多元溯源数据集构建模块, 用于对多元溯源数据库进行初步评价筛选, 根据需要选择 数据集特 征数量, 构建多元溯源数据集; 结果预测模块, 用于采用机器学习算法模型或深度学习算法模型进行 结果预测。 8.一种计算机存储介质, 其特征在于, 其上存储有计算机程序, 其中所述计算机程序被 执行器执行时实现如权利要求 1‑6中任一所述的基于特征领域知识自动获取的数值特征发 现方法。权 利 要 求 书 2/2 页 3 CN 115080752 B 3

PDF文档 专利 基于特征领域知识自动获取的数值特征发现方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于特征领域知识自动获取的数值特征发现方法及系统 第 1 页 专利 基于特征领域知识自动获取的数值特征发现方法及系统 第 2 页 专利 基于特征领域知识自动获取的数值特征发现方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。