专利一种基于人工智能的水环境舆情识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210957565.3 (22)申请日 2022.08.10 (71)申请人山东大学地址 250100 山东省济南市历城区山大南路27号申请人北京师范大学 (72)发明人王国强　张庆竹　王溥泽　薛宝林　王运涛　任世龙　 (74)专利代理机构北京市广友专利事务所有限责任公司 1 1237 专利代理师张仲波 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/205(2020.01) G06F 16/338(2019.01)G06F 16/34(2019.01) G06F 16/35(2019.01) G06Q 10/06(2012.01) G06Q 50/06(2012.01) (54)发明名称一种基于人工智能的水环境舆情识别方法 (57)摘要本发明公开了一种基于人工智能的水环境舆情识别方法，包括：基于流域水环境大数据资源，结合流域水环境业务需求，收集文本集；对收集的文本集进行预处理，包括数据选择、数据清洗、数据转换中的一种或多种；对预处理后的数据进行特征抽取，并进行特征修剪，得到可用于文本挖掘的特征子集；基于文本挖掘目标和特征子集，采用文本挖掘算法进行水环境舆情识别；将识别结果以图表或报告的方式展示给用户。本发明方法能够实现对海量互联网水环境舆情信息的全面识别和分析，提高了水环境舆情识别的准确性和效率。权利要求书2页说明书7页附图1页 CN 115392231 A 2022.11.25 CN 115392231 A 1.一种基于人工智能的水环境舆情识别方法，其特征在于，包括以下步骤： S1、基于流域水环境大数据资源，结合流域水环境业务需求，收集文本集； S2、对收集的文本集进行预处理，包括数据选择、数据清洗、数据转换中的一种或多种； S3、对预处理后的数据进行特征抽取，并进行特征修剪，得到可用于文本挖掘的特征子集； S4、基于文本挖掘目标和特征子集，采用文本挖掘算法进行水环境舆情识别； S5、将识别结果以图表或报告的方式展示给用户。 2.根据权利要求1所述的基于人工智能的水环境舆情识别方法，其特征在于，所述步骤 S3中，对预处理后的数据进行特征抽取是指对预处理后的数据进行关键词抽取，具体包括以下步骤： A1、将给定的文本T 按照完整句子进行分割，即： T＝[S1,S2,…,Sm] A2、对于每个句子Si∈T，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，包括名词、动词、形容词，即Si＝[ti,1,ti,2,…,ti,m]，其中ti,j∈Sj是保留后的候选关键词； A3、利用TextRank算法构建候选关键词图G＝(V,E)，其中V为节点集， E为边集， E是V ×V 的子集； V由步骤A2生成的候选关键词组成，然后采用共现关系构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K 的窗口中共现， K表示窗口大小，即最多共现K个单词； A4、根据以下公式，迭代传播各节点的权重，直至收敛；其中， wji为任意两个节点Vi和Vj之间边的权重,wjk为任意两个节点Vk和Vj之间边的权重；对于一个给定的节点Vi， In(Vi)为指向该节点的节点集合， Out(Vj)为该节点指向的节点集合， c为阻尼系数,取值范围为0到1,代表从图中某一节点指向其他任意节点的概率， WS (Vi)为节点Vi的得分， WS(Vj)为节点Vj的得分； A5、对节点权重进行倒序排序，从而得到最重要的若干候选关键词； A6、根据得到的最重要的若干候选关键词，在文本中进行标记，若形成相邻词组，则组合成多词关键词。 3.根据权利要求2所述的基于人工智能的水环境舆情识别方法，其特征在于，所述步骤 A4中，计算图中各节点的得分时,首先给图中的节点指定任意的初值,并递归计算直到收敛,即图中节点的误差率小于给定的极限值时认为达到收敛,该极限值取0.0 001。 4.根据权利要求1所述的基于人工智能的水环境舆情识别方法，其特征在于，所述步骤 S3中，特征修剪包括横向选择和纵向投影两种方式；横向选择是指剔除噪声以改进挖掘精度，或者在特征数量过多时仅选取其中一部分以提高挖掘效率；纵向投影是指按照文本挖掘目标选取满足相关性条件的特征。 5.根据权利要求1所述的基于人工智能的水环境舆情识别方法，其特征在于，所述步骤权　利　要　求　书 1/2 页 2 CN 115392231 A 2S4中，采用的文本挖掘算法包括文本聚类算法、文本分类算法和摘要抽取算法。 6.根据权利要求5所述的基于人工智能的水环境舆情识别方法，其特征在于，采用摘要抽取算法时，首先，对查询 Query进行关键词特征解析，生成关键词特征qi；然后，对于每个搜索文本结果d，计算每个关键词特征qi与d的相关性得分，最后，将qi相对于d的相关性得分进行加权求和，从而得到Query与d的相关性得分，公式如下：其中， Q表示Query， qi表示Q解析之后的一个关键词特征， d表示一个搜索文本结果； Wi表示关键词特征qi的权重； R(qi， d)表示关键词特征qi与搜索文本结果d的相关性得分。 7.根据权利要求6所述的基于人工智能的水环境舆情识别方法，其特征在于，以IDF为例，定义关键词特征qi的权重Wi如下：其中， N为索引中的全部文本数， n(qi)为包含了qi的文本数；关键词特征qi与搜索文本结果d的相关性得分R(qi， d)计算如下：其中k1， k2， b为调节因子，根据经验设置； fi为qi在d中的出现频率， qfi为qi在Query中的出现频率， dl 为d的长度， avgdl 为所有文本的平均长度； Query与d的相关性得分可总结为：权　利　要　求　书 2/2 页 3 CN 115392231 A 3

专利 一种基于人工智能的水环境舆情识别方法

专利一种基于人工智能的水环境舆情识别方法