专利 一种基于知识关联与相关性反馈技术的舆情数据采集方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210742598.6 (22)申请日 2022.08.25 (71)申请人南方电网大数据服务有限公司地址 510000 广东省广州市花都区新华街红珠路5-1 (72)发明人赵永国　杨荣霞　曹熙　张仙梅　曾祥清　黎名航　 (74)专利代理机构北京中睿智恒知识产权代理事务所(普通合伙) 16025 专利代理师侯文峰 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/215(2019.01) G06F 16/28(2019.01) G06F 16/23(2019.01)G06N 5/02(2006.01) G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于知识关联与相关性反馈技术的舆情数据采集方法 (57)摘要本发明公开了一种基于知识关联与相关性反馈技术的舆情数据采集方法，以特定目标的关键词典为种子进行数据采集，通过对采集结果进行知识关联分析以扩充原始词典，并在新词典的采集结果基础上进行相关性反馈与重复率检测等分析以评估数据采集效果，最后判断是否需要在新的采集循环中重构关键词典；本发明基于关键词的分布式数据采集系统基础上融合了命名实体识别与知识关联方法以扩充知识库，并设计多个指标评估采集效果，通过控制指标阈值实现自动化、可持续、可迭代的知识更新策略与信息采集策略，服务社交媒体舆情数据获取与知识发现等现实需求。权利要求书3页说明书6页附图3页 CN 115145894 A 2022.10.04 CN 115145894 A 1.一种基于知识关联与相关性反馈技术的舆情数据采集方法，其特征在于，包括以下步骤：构建数据库：搜集特定事件相关信息，挑选主要的关键词编成词典，构建具有录入和可互动编辑功能的轻量化数据库；分布式数据采集：针对所述轻量化数据库的任务清单与关键词清单进行自动化任务调度，实现分布式数据采集，通过设计优先级策略和自定义配置，满足数据采集的灵活性需求；数据预处理：对于获取到的数据进行拼接、去重处理，对文本数据进行字符过滤、分词处理，统一数据格式；知识关联：基于预处理后的数据，针对已有的关键词典进行知识发现与知识关联分析，获取语用层面和语义层面上与关键词典关联度最高的词汇，形成扩充字典；重构知识库：将所述扩充字典与原始的关键词典进行合并、去重，然后投入下一轮数据采集循环当中。 2.根据权利要求1所述一种基于知识关联与相关性反馈技术的舆情数据采集方法，其特征在于：在构建数据库的过程中，对特定事件与任务进行关键词的挑选、收集，并填写对应关键词的初始属性，其中，所述初始属性包括编号、实体、来源、任务状态；使用可交互编辑的轻量化数据库SeaTable录入关键词，并以表格形式呈现，生成对应的任务清单与关键词清单，以供采集系统读取；在SeaTable提供的Python模块基础上，构建知识库操作程序，基于Base函数模块和 SeaTable 数据表的To ken构造知识库连接器base_co nnecter；在知识库链接器base_connecter基础上,基于SeaTable提供的insert_row、 delete_ row与update_row函数模块，生成知识库的增删改程序，用于添加、删除或修改知识库数据内容；在知识库链接器base_connecter基础上，基于SeaTable提供query函数模块以及get_ rows和list_rows函数模块，构建支持轻量化SQL查询的知识库数据内容查寻读取程序，用于检索并读取指定的知识内容。 3.根据权利要求2所述一种基于知识关联与相关性反馈技术的舆情数据采集方法，其特征在于：在进行分布式数据采集的过程中，判断当前流程是否为初次数据采集，若是则进行所述数据预处理，若否则进行采集效果评估，其中，所述采集效果评估用于通过计算采集结果是否达到阈值，判断是否需要扩充词典。 4.根据权利要求3所述一种基于知识关联与相关性反馈技术的舆情数据采集方法，其特征在于：在进行采集效果评估的过程中，构造相关性反馈指标与重复率指标作为判断条件，计算采集结果是否达到阈值目标，若是则说明无需扩充词典，继续执行分布式数据采集；若否则说明需要扩充词典，执行知识关联步骤。 5.根据权利要求4所述一种基于知识关联与相关性反馈技术的舆情数据采集方法，其特征在于：权　利　要　求　书 1/3 页 2 CN 115145894 A 2在进行分布式数据采集的过程中，使用Airflow大数据分布式任务调度框架，将 Airflow的Worker工作器节点分布于多台服务器，使用Airflow的Scheduler实现任务调度分配功能，构造DAG任务流程。 6.根据权利要求5所述一种基于知识关联与相关性反馈技术的舆情数据采集方法，其特征在于：在使用Airflow大数据分布式任务调度框架的过程中，使用Airflow 的Scheduler作为任务调度器，调度程序监控所有任务和DAG，然后在它们的依赖关系完成后触发任务实例。 7.根据权利要求6所述一种基于知识关联与相关性反馈技术的舆情数据采集方法，其特征在于：在构造DAG任务流程的过程中，读取知识库中的任务清单，判断任务状态，选择待执行任务读取其对应的关键词清单传入数据采集组件，并将执行结果写回知识库任务清单中；通过获取任务对应的关键词清单，使用Scheduler将关键词分发到空闲的采集工作器节点中执行数据采集任务，用于确保多个工作器的任务负载均衡；待数据采集完毕后，将采集结果写入MySQ L数据库中，等待后续步骤调用。 8.根据权利要求7所述一种基于知识关联与相关性反馈技术的舆情数据采集方法，其特征在于：在进行采集效果评估的过程中，还包括以下步骤：相关性指标构造：对于采集数据结果构造相关性反馈指标，用于测量当前关键词典下的采集结果与关键词典本身的相关性强弱；重复性指标构造：对于采集数据结果构造重复性指标，用于测量当前关键词典下的采集结果中数据的重复比例；增长率指标构造：对于采集数据结果构造增长率指标，用于测量当前关键词典下的采集结果数据相较于前一次循环的采集结果的非重复数据增长比例，其中，前一次循环用于表示词典扩充前；指标计算与判定：计算上述指标作为是否扩充词典的判定依据，当且仅当三个指标均达到阈值时，则不需要扩充词典，否则需要扩充词典。 9.根据权利要求6所述一种基于知识关联与相关性反馈技术的舆情数据采集方法，其特征在于：在进行知识关联的过程中，还包括以下步骤：基于命名实体识别的知识发现：对检索数据的文本进行预处理后，输入命名实体识别模型，挑选以名词和动词为词根的新词，并构造新词词典对文本数据重新进行分词处理，用于确保数据中的新词、专有名词可以被正确的划分；基于共现关系的知识关联：对于使用命名实体识别后的文本数据，分别对关键词典中的每一个词进行词共现计算，获取所有文本数据中与关键词共现频率最高的词汇，除以该词汇的出现频率，得到语用关联度值最高的前n个关键词作为扩充词；基于语义相似的知识关联：对于使用命名实体识别后的文本数据，分别对关键词典中的每一个词进行语义相似度计算，获取所有文本数据中与关键词语义相似度最高的词汇，每个关键词取前n个最高语用关联词作为扩充词。 10.根据权利要求9所述一种基于知识关联与相关性反馈技术的舆情数据采集方法，其权　利　要　求　书 2/3 页 3 CN 115145894 A 3

专利 一种基于知识关联与相关性反馈技术的舆情数据采集方法

专利一种基于知识关联与相关性反馈技术的舆情数据采集方法