(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210742598.6 (22)申请日 2022.08.25 (71)申请人 南方电网大 数据服务有限公司 地址 510000 广东省广州市花都区新 华街 红珠路5-1 (72)发明人 赵永国 杨荣霞 曹熙 张仙梅  曾祥清 黎名航  (74)专利代理 机构 北京中睿智恒知识产权代理 事务所(普通 合伙) 16025 专利代理师 侯文峰 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/215(2019.01) G06F 16/28(2019.01) G06F 16/23(2019.01)G06N 5/02(2006.01) G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于知识关联与相关性反馈技术的舆 情数据采集方法 (57)摘要 本发明公开了一种基于知识关联与相关性 反馈技术的舆情数据采集方法, 以特定目标的关 键词典为种子进行数据采集, 通过对采集结果进 行知识关联分析以扩充原始词典, 并在新词典的 采集结果基础上进行相关性反馈与重复率检测 等分析以评估 数据采集效果, 最后判断是否需要 在新的采集循环中重构关键词典; 本发明基于关 键词的分布式数据采集系统基础上融合了命名 实体识别与知识关联方法以扩充知识库, 并设计 多个指标评估采集效果, 通过控制指标阈值实现 自动化、 可持续、 可迭代的知识更新策略与信息 采集策略, 服务社交媒体舆情数据获取与知 识发 现等现实需求。 权利要求书3页 说明书6页 附图3页 CN 115145894 A 2022.10.04 CN 115145894 A 1.一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其特征在于, 包括以下 步骤: 构建数据库: 搜集特定事件相关信 息, 挑选主要的关键词编成词典, 构建具有录入和可 互动编辑功能的轻量 化数据库; 分布式数据采集: 针对所述轻量化数据库的任务清单与关键词清单进行自动化任务调 度, 实现分布式数据采集, 通过设计优先级策略和自定义配置, 满足数据采集的灵活性需 求; 数据预处理: 对于获取到的数据进行拼接、 去重处理, 对文本数据进行字符过滤、 分词 处理, 统一数据格式; 知识关联: 基于预处理后的数据, 针对已有的关键词典进行知识发现与知识关联分析, 获取语用层面和语义层面上与关键词典关联度最高的词汇, 形成扩充字典; 重构知识库: 将所述扩充字典与原始的关键词典进行合并、 去重, 然后投入下一轮数据 采集循环当中。 2.根据权利要求1所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其 特征在于: 在构建数据库的过程中, 对特定事件与任务进行关键词的挑选、 收集, 并填写对应关键 词的初始属性, 其中, 所述初始属性包括编号、 实体、 来源、 任务状态; 使用可交互编辑的轻量化数据库SeaTable录入关键词, 并以表格形式呈现, 生成对应 的任务清单与关键词清单, 以供采集系统读取; 在SeaTable提供的Python模块基础上, 构建知识库操作程序, 基于Base函数模块和 SeaTable 数据表的To ken构造知识库连接器base_co nnecter; 在知识库链接器base_connecter基础上,基于SeaTable提供的insert_row、 delete_ row与update_row函数模块, 生成知识库的增删改程序, 用于添加、 删除或修改知识库数据 内容; 在知识库链接器base_connecter基础上, 基于SeaTable提供query函数模块以及get_ rows和list_rows函数模块, 构建支持轻量化SQL查询的知识库数据内容查寻读取程序, 用 于检索并读取指定的知识内容。 3.根据权利要求2所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其 特征在于: 在进行分布式数据采集的过程中, 判断当前流程是否为初次数据采集, 若是则进行所 述数据预 处理, 若否则进 行采集效果评估, 其中, 所述采集效果评估用于通过计算采集结果 是否达到阈值, 判断是否需要扩充词典。 4.根据权利要求3所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其 特征在于: 在进行采集效果评估的过程中, 构造相关性反馈指标与重复率指标作为判断条件, 计 算采集结果是否达到阈值目标, 若是则说明无需扩充词典, 继续执行分布式数据采集; 若否 则说明需要扩充词典, 执 行知识关联步骤。 5.根据权利要求4所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其 特征在于:权 利 要 求 书 1/3 页 2 CN 115145894 A 2在进行分布式数据采集的过程中, 使用Airflow大数据分布式任务调度框架, 将 Airflow的Worker工作器节点分布于多台服务器, 使用Airflow的Scheduler实现任务调度 分配功能, 构造DAG任务 流程。 6.根据权利要求5所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其 特征在于: 在使用Airflow大数据分布式任务调度框架的过程中, 使用Airflow 的Scheduler作为 任务调度器, 调度程序监控所有任务和DAG, 然后在它 们的依赖关系完成后触发任务实例。 7.根据权利要求6所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其 特征在于: 在构造DAG任务流程的过程中, 读取知识库中的任务清单, 判断任务状态, 选择待执行 任务读取其对应的关键词清单传入数据采集组件, 并将执 行结果写回知识库任务清单中; 通过获取任务对应的关键词清单, 使用Scheduler将关键词分发到空闲的采集工作器 节点中执 行数据采集任务, 用于确保多个工作器的任务负载均衡; 待数据采集完毕后, 将采集结果写入MySQ L数据库中, 等待后续 步骤调用。 8.根据权利要求7所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其 特征在于: 在进行采集效果评估的过程中, 还 包括以下步骤: 相关性指标构造: 对于采集数据结果构造相关性反馈指标, 用于测量当前关键词典下 的采集结果与关键词典本身的相关性强弱; 重复性指标构造: 对于采集数据结果构造重复性指标, 用于测量当前关键词典下的采 集结果中数据的重复比例; 增长率指标构造: 对于采集数据结果构造增长率指标, 用于测量当前关键词典下的采 集结果数据相较于前一次循环的采集结果的非重复数据增长比例, 其中, 前一次循环用于 表示词典扩充前; 指标计算与判定: 计算上述指标作为是否扩充词典的判定依据, 当且仅当三个指标均 达到阈值时, 则不需要扩充词典, 否则需要扩充词典。 9.根据权利要求6所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其 特征在于: 在进行知识关联的过程中, 还 包括以下步骤: 基于命名实体识别的知识发现: 对检索数据的文本进行预处理后, 输入命名实体识别 模型, 挑选以名词和动词为词根的新词, 并构 造新词词典对文本数据重新进行分词处理, 用 于确保数据中的新词、 专有名词可以被正确的划分; 基于共现关系的知识关联: 对于使用命名实体识别后的文本数据, 分别对关键词典中 的每一个词进行词共现计算, 获取所有文本数据中与关键词共现频率最高的词汇, 除以该 词汇的出现频率, 得到语用关联度值 最高的前n个关键词作为扩充词; 基于语义相似的知识关联: 对于使用命名实体识别后的文本数据, 分别对关键词典中 的每一个词进行语义相似度计算, 获取所有文本数据中与关键词语义相似度最高的词汇, 每个关键词取 前n个最高语用关联词作为扩充词。 10.根据权利要求9所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其权 利 要 求 书 2/3 页 3 CN 115145894 A 3

.PDF文档 专利 一种基于知识关联与相关性反馈技术的舆情数据采集方法

安全报告 > 其他 > 文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识关联与相关性反馈技术的舆情数据采集方法 第 1 页 专利 一种基于知识关联与相关性反馈技术的舆情数据采集方法 第 2 页 专利 一种基于知识关联与相关性反馈技术的舆情数据采集方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-02-07 20:38:15上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。