专利一种基于信息对抗学习的社交网络谣言检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211165514.3 (22)申请日 2022.09.23 (71)申请人河南师范大学地址 453007 河南省新乡市牧野区建设东路46号 (72)发明人朱贺　刘琦　 (74)专利代理机构新乡市平原智汇知识产权代理事务所(普通合伙) 41139 专利代理师路飞 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/951(2019.01) G06N 3/04(2006.01) G06Q 50/00(2012.01) (54)发明名称一种基于信息对抗学习的社交网络谣言检测方法 (57)摘要本发明公开了一种基于信息对抗学习的社交网络谣言检测方法，该方法借助于舆情信息流的分离，分别将舆情信息源和回复评论信息映射到高维词表示空间和句子表示空间，再通过信息对抗网络中生成器以及鉴别器的竞争优化机制，实现了在现实情形中广泛存在不实情感表达和虚假评论背景下的谣言检测，从而在降低模型对于噪声敏感性的同时，有效提高了谣言识别的准确度。权利要求书3页说明书6页附图1页 CN 115481250 A 2022.12.16 CN 115481250 A 1.一种基于信息对抗学习的社交网络谣言检测方法，其特征在于：确定待分析舆情信息所属平台的相关API参数，爬取舆情数据并做细粒度的结构化预处理；然后分离舆情信息流，将舆情信息发布源和回复评论信息分别映射到高维度的词表示以及句子表示空间；再通过构建基于双向门循环神经网络构建的对抗学习生成器，从回复评论数据中提取时序特征，生成对抗信息；接着利用基于卷积神经网络搭建的鉴别器，对舆情信息发布源和生成对抗信息进行鉴别，输出可用于鉴别谣言的特征变量；最后借助于前馈神经网络以及有针对性设计的优化方法，驱动模型持续的提高谣言鉴别准确性。 2.根据权利要求1所述的基于信息对抗学习的社交网络谣言检测方法，其特征在于具体步骤为：步骤1)确定待检测的社交网络舆情来源，利用相关社交网络提供的API接口爬取网络舆情数据，并对得到的原始舆情数据进行结构化预处理；步骤2)分离舆情信息流，得到舆情信息发布源以及对应的回复评论数据，分别采用词嵌入以及句子嵌入方法将舆情信息发布源和回复评论数据映射到高维词表示空间和句子表示空间，作为后续数据分析的基础；步骤3)提取相关舆情回复评论数据的发布时间，并以之为依据建立舆情反应信息流，以双向门循环神经网络Bi ‑GRU为基础建立对抗网络的生成器模块，分别提取舆情反应信息流在顺时序方向及逆时序方向的传播特征，并加以融合，从而得到全维度的时序特征表现，再进一步采用反卷积方法，将融合得到的在句子表示空间的特征变量投影到词表示空间，生成对抗信息；步骤4)以三个平行放置的深度卷积神经网络CNN为基础搭建对抗网络的鉴别器模块，将生成器生成的对抗信息以及高维词空间映射得到的舆情源信息输入到鉴别器模块，分别分析二元语法、三元语法和四元语法中的语义关系，再使用Max ‑pooling方法提取最强相关特征作为舆情鉴别的依据；步骤5)分析鉴别器输出的特征变量，将其中的舆情类别指示变量输入到前馈神经网络中，配以Softmax函数将前馈神经网络的输出映射到谣言鉴别的概率空间，定义兼顾对抗网络进化及鉴别精度的损失函数，并以之最小化为优化目标，持续调整网络重点的可学习权重参数。 3.根据权利要求2所述的基于信息对抗学习的社交网络谣言检测方法，其特征在于步骤1)的具体过程如下： Step1:确定社交平台提供API接口的相关参数，选择支持的编程语言爬取原始舆情数据； Step2:删除舆情数据中的完全重复评论、无意义转发、空白推文以及话题标签等无效数据； Step3:对舆情数据中的表情图片及情感表达符号进行具象化的文字对应； Step4:对社交网络舆情数据中涉及的中文信息进行分词处理，再对中、英文信息进行去停用词操作。 4.根据权利要求2所述的一种基于信息对抗学习的社交网络谣言检测方法，其特征在于步骤2)的具体过程如下： Step1:从舆情信息流中分离出各舆情事件的信息发布源及对应的回复评论数据；权　利　要　求　书 1/3 页 2 CN 115481250 A 2Step2:基于SOTA算法，利用Word Embedding将舆情事件源信息映射到高维词表示空间； Step3:以S entence Embedding方法为基础，将回复评论数据映射到具有语义关联的高维句子表示空间，同时保持与源信息的对应关系。 5.根据权利要求2所述的基于信息对抗学习的社交网络谣言检测方法，其特征在于步骤3)的具体过程如下： Step1:提取从舆情事件分离出的回复评论数据，依据其时间依赖关系建立回复评论数据舆情信息流； Step2:基于顺时序方向上的依赖关系，将映射后的高维句子空间表示的回复评论数据依次输入到门循环神经网络GRU，提取正向的积累时序特征，通过下述方法计算：其中， h'n是正向当前时刻的积累时序特征， Wz,Wr和是可学习网络权重参数， h'n‑1是上一个时刻的积累时序特征，是当前时刻积累时序特征的备选状态，和分别代表更新门及重置门的当前时刻状态，表示逐乘操作， σ( ·)代表Sigmoid函数； Step3:将高维句子空间表示的回复评论数据按逆时序关系依次排列，输入门循环神经网络GRU，得到逆时序特征的积累表示h'n'； Step4:融合正时序及逆时序的积累特征表示，到全维度的时序特征表现hn； Step5:借助于反卷积方法，将全维度的时序特征表现hn投影到词表示空间，其计算方法如下：其中，即是生成对抗信息， hpad代表对hn进行Zero Pad操作的矩阵， f为反卷积核。 6.根据权利要求2所述的基于信息对抗学习的社交网络谣言检测方法，其特征在于步骤4)的具体过程如下： Step1:平行放置三个卷积神经网络CNN，设置卷积核的首维度分别为2,3,4，从而提取分析二元语法、三元语法和四元语法中的语义关系； Step2:分别将生成的高维词空间表示的对抗信息和舆情源信息输入平行放置的三个卷积神经网络 CNN，并使用Max ‑pooling方法提取最强相关特征； Step3:连接并融合从二元语法、三元语法和四元语法关系中提取的最强相关特征，作为鉴别器进行舆情类别判定的依据。 7.根据权利要求2所述的基于信息对抗学习的社交网络谣言检测方法，其特征在于步骤5)的具体过程如下： Step1:以鉴别器的输出作为输入，建立多层前馈神经网络，其网络各层输入及输出的计算公式如下：权　利　要　求　书 2/3 页 3 CN 115481250 A 3

专利 一种基于信息对抗学习的社交网络谣言检测方法

专利一种基于信息对抗学习的社交网络谣言检测方法