(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210957565.3
(22)申请日 2022.08.10
(71)申请人 山东大学
地址 250100 山东省济南市历城区山大南
路27号
申请人 北京师范大学
(72)发明人 王国强 张庆竹 王溥泽 薛宝林
王运涛 任世龙
(74)专利代理 机构 北京市广友专利事务所有限
责任公司 1 1237
专利代理师 张仲波
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/205(2020.01)
G06F 16/338(2019.01)G06F 16/34(2019.01)
G06F 16/35(2019.01)
G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
(54)发明名称
一种基于人工智能的水环境舆情识别方法
(57)摘要
本发明公开了一种基于人工智能的水环境
舆情识别方法, 包括: 基于流域水环境大数据资
源, 结合流域水环境业务需求, 收集文本集; 对收
集的文本集进行预处理, 包括数据选择、 数据清
洗、 数据转换中的一种或多种; 对预处理后的数
据进行特征抽取, 并进行特征修剪, 得到可用于
文本挖掘的特征子集; 基于文本挖掘目标和特征
子集, 采用文本挖掘算法进行水环境舆情识别;
将识别结果以图表或报告的方式展示给用户。 本
发明方法能够实现对海量互联网水环境舆情信
息的全面识别和分析, 提高了水环 境舆情识别的
准确性和效率。
权利要求书2页 说明书7页 附图1页
CN 115392231 A
2022.11.25
CN 115392231 A
1.一种基于人工智能的水环境舆情识别方法, 其特 征在于, 包括以下步骤:
S1、 基于流 域水环境大 数据资源, 结合 流域水环境 业务需求, 收集文本集;
S2、 对收集的文本集进行 预处理, 包括数据选择、 数据清洗、 数据转换中的一种或多种;
S3、 对预处理后的数据进行特征抽取, 并进行特征修剪, 得到可用于文本挖掘的特征子
集;
S4、 基于文本挖掘目标和特 征子集, 采用文本挖掘算法进行 水环境舆情识别;
S5、 将识别结果以图表或报告的方式展示给用户。
2.根据权利要求1所述的基于人工智能的水环境舆情识别方法, 其特征在于, 所述步骤
S3中, 对预处理后的数据进行特征抽取是指对预处理后的数据进行关键词抽取, 具体包括
以下步骤:
A1、 将给定的文本T 按照完整句子进行分割, 即:
T=[S1,S2,…,Sm]
A2、 对于每个句子Si∈T, 进行分词和词性标注处理, 并过滤掉停用词, 只 保留指定词性
的单词, 包括名词、 动词、 形容词, 即Si=[ti,1,ti,2,…,ti,m], 其中ti,j∈Sj是保留后的候选关
键词;
A3、 利用TextRank算法构建候选关键词图G=(V,E), 其中V为节点集, E为边集, E是V ×V
的子集; V由步骤A2生成的候选关键词组成, 然后采用共现关系构造任两点之间的边, 两个
节点之间存在边仅当它们对应的词汇在长度为K 的窗口中共现, K表示窗口大小, 即最多共
现K个单词;
A4、 根据以下公式, 迭代传播各节点的权 重, 直至收敛;
其中, wji为任意两个节点Vi和Vj之间边的权重,wjk为任意两个节点Vk和Vj之间边的权
重; 对于一个给定的节 点Vi, In(Vi)为指向该节 点的节点集合, Out(Vj)为该节点指向的节点
集合, c为阻尼系数,取值范围为0到1,代表从图中某一节点指向其他任意节点的概率, WS
(Vi)为节点Vi的得分, WS(Vj)为节点Vj的得分;
A5、 对节点权 重进行倒序排序, 从而得到最重要的若干候选关键词;
A6、 根据得到的最重要 的若干候选关键词, 在文本中进行标记, 若形成相邻词组, 则组
合成多词关键词。
3.根据权利要求2所述的基于人工智能的水环境舆情识别方法, 其特征在于, 所述步骤
A4中, 计算图中各节点的得分时,首先给图中的节点指定任意的初值,并递归计算直到收
敛,即图中节点的误差率小于给定的极限值时认为达 到收敛,该极限值取0.0 001。
4.根据权利要求1所述的基于人工智能的水环境舆情识别方法, 其特征在于, 所述步骤
S3中, 特征修剪包括横向选择和纵向投影两种方式;
横向选择是指剔除噪声以改进挖掘精度, 或者在特征数量过多时仅选取其中一部分以
提高挖掘效率;
纵向投影是指按照文本挖掘目标选取满足相关性条件的特 征。
5.根据权利要求1所述的基于人工智能的水环境舆情识别方法, 其特征在于, 所述步骤权 利 要 求 书 1/2 页
2
CN 115392231 A
2S4中, 采用的文本挖掘算法包括文本聚类算法、 文本分类算法和摘要抽取算法。
6.根据权利要求5所述的基于人工智能的水环境舆情识别方法, 其特征在于, 采用摘要
抽取算法时, 首先, 对查询 Query进行关键词特征解析, 生成关键词特征qi; 然后, 对于每个
搜索文本结果d, 计算每个关键词特征qi与d的相关性得分, 最后, 将qi相对于d的相关性得分
进行加权求和, 从而得到Query与d的相关性得分, 公式如下:
其中, Q表示Query, qi表示Q解析之后的一个关键词特征, d表示一个搜索文本结果; Wi表
示关键词特 征qi的权重; R(qi, d)表示关键词特 征qi与搜索文本结果d的相关性得分。
7.根据权利要求6所述的基于人工智能的水环境舆情识别方法, 其特征在于, 以IDF为
例, 定义关键词特 征qi的权重Wi如下:
其中, N为索引中的全部文本数, n(qi)为包含了qi的文本数;
关键词特 征qi与搜索文本结果d的相关性得分R(qi, d)计算如下:
其中k1, k2, b为调节因子, 根据经验设置; fi为qi在d中的出现频率, qfi为qi在Query中的
出现频率, dl 为d的长度, avgdl 为所有文本的平均长度;
Query与d的相关性得分可总结为:
权 利 要 求 书 2/2 页
3
CN 115392231 A
3
专利 一种基于人工智能的水环境舆情识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:35:39上传分享