全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211141297.4 (22)申请日 2022.09.20 (71)申请人 浙江书香荷马文化有限公司 地址 310051 浙江省杭州市滨江区长河街 道阿里中心 2号楼8层810室 (72)发明人 郭雷廷  (74)专利代理 机构 北京恒泰铭睿知识产权代理 有限公司 1 1642 专利代理师 胡琳丽 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) (54)发明名称 基于大数据的公司舆情监测系统及其方法 (57)摘要 公开了一种基于大数据的公司舆情监测系 统及其方法, 其通过包含嵌入层的上下文编码器 和多尺度邻域特征提取模块提取出与待监控公 司相关的文章和所述文章的评论数据的全局语 义关联隐含 特征信息, 并且在此过程中通过事件 抽取的方式来从大量的文章和评论中快速识别 出事件和实体; 然后, 通过作为特征提取器的卷 积神经网络进行特征挖掘以提取出重要的文章 观点和评论观点特征来综合进行所述待监控公 司相关的舆情正负向分类判断。 这样, 可 以提高 所述待监控公司相关的舆情判断结果的准确性, 以及时地掌握公司的动 向和预测热点事件的发 生。 权利要求书3页 说明书13页 附图4页 CN 115409018 A 2022.11.29 CN 115409018 A 1.一种基于大 数据的公司舆情监测系统, 其特 征在于, 包括: 舆情监控 模块, 用于获取与待监控公司相关的文章和所述文章的评论数据; 事件抽取模块, 用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到 事件文本描述; 事件上下文语义编码模块, 用于将所述事件文本描述通过包含嵌入层的上下文编码器 以得到多个事 件文本描述词特 征向量; 词粒度特征表示模块, 用于将所述多个事件文本描述词特征向量进行级联以得到词粒 度特征向量; 片语粒度 特征表示模块, 用于将所述多个事件文本描述词特征向量排列为一维特征向 量后通过多尺度邻域特 征提取模块以得到片语粒度特 征向量; 多粒度特征融合模块, 用于融合所述词粒度 特征向量和所述片语粒度 特征向量以得到 多尺度事 件描述特 征向量; 评论数据编码模块, 用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征 提取模块从所述文章的评论数据得到多尺度评论特 征向量; 关联编码模块, 用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行 关联编码以得到事 件‑评论关联矩阵; 关联特征提取模块, 用于将所述事件 ‑评论关联矩阵通过作为特征提取器的卷积神经 网络以得到事 件‑评论关联 特征矩阵; 以及 舆情监测结果生成模块, 用于将所述事件 ‑评论关联特征矩阵通过分类器以得到分类 结果, 所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。 2.根据权利要求1所述的基于大数据的公司舆情监测系统, 其特征在于, 所述事件上下 文语义编码模块, 包括: 分词子单元, 用于对所述事件文本描述进行分词处理以将所述事件文本描述转化为由 多个词组成的词序列; 嵌入编码子单元, 用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中 各个词映射到词向量以获得词向量的序列; 以及 上下文编码子单元, 用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量 的序列进行基于全局的上 下文语义编码以获得 所述多个事 件文本描述词特 征向量。 3.根据权利要求2所述的基于大数据的公司舆情监测系统, 其特征在于, 所述片语粒度 特征表示模块, 包括: 第一片语尺度编码单元, 用于将所述一维特征向量输入所述多尺度邻域特征提取模块 的第一卷积层以得到第一片语尺度事件特征向量, 其中, 所述第一卷积层具有第一长度的 第一一维卷积核; 第二片语尺度编码单元, 用于将所述一维特征向量输入所述多尺度邻域特征提取模块 的第二卷积层以得到第二片语尺度事件特征向量, 其中, 所述第二卷积层具有第二长度的 第二一维卷积核, 所述第一长度不同于所述第二长度; 以及 多尺度级联单元, 用于将所述第 一片语尺度事件特征向量和所述第 二片语尺度事件特 征向量进行级联以得到所述片语粒度特 征向量。 4.根据权利要求3所述的基于大数据的公司舆情监测系统, 其特征在于, 所述多粒度 特权 利 要 求 书 1/3 页 2 CN 115409018 A 2征融合模块, 进一步用于: 以如下公式融合所述词粒度特征向量和所述片语粒度特征向量 以得到所述多尺度事 件描述特 征向量; 其中, 所述公式为: 其中Vp表示所述词粒度特征向量, V2表示所述片语粒度特征向量, vi表示所述片语粒度 特征向量的各个位置的特征值, 是所述片语粒度特征向量的各个位置的特征值集合的全 局均值, 且L是所述片 语粒度特征向量的长度, α 是加权超参数, 表示按位置加法, 表示 按位置点乘, exp( ·)表示数值的指数运算, 所述数值的指数运算表 示计算以所述数值为幂 的自然指数函数值。 5.根据权利要求4所述的基于大数据的公司舆情监测系统, 其特征在于, 所述关联编码 模块, 进一步用于: 以如下公式对所述多尺度评论特征向量和所述多尺度事件描述特征向 量进行关联编码以得到所述事 件‑评论关联矩阵; 其中, 所述公式为: 其中V1表示所述多尺度事件描述特征向量, 表示所述多尺度事件描述特征向量的转 置向量, Vc表示所述多尺度评论特征向量, M表示所述事件 ‑评论关联矩阵, 表示向量相 乘。 6.根据权利要求5所述的基于大数据的公司舆情监测系统, 其特征在于, 所述关联特征 提取模块, 进一步用于: 所述作为特征提取器的卷积神经网络的各层在层的正向传递中分 别进行: 对输入数据进行 卷积处理以得到卷积特 征图; 对所述卷积特 征图进行沿通道维度的池化处 理以得到池化特 征图; 以及 对所述池化特 征图进行非线性激活以得到 激活特征图; 其中, 所述作为特征提取器的卷积神经网络的最后一层的输出为所述事件 ‑评论关联 特征矩阵, 所述作为特征提取器的卷积神经网络的第一层的输入为所述事件 ‑评论关联矩 阵。 7.根据权利要求6所述的基于大数据的公司舆情监测系统, 其特征在于, 所述舆情监测 结果生成模块, 进一步用于: 使用所述分类器以如下公式对所述事件 ‑评论关联特征矩阵进 行处理以生成分类结果, 其中, 所述公式为: O=softm ax{(Wn,Bn):…:(W1,B1)|F(M)}, 其中F (M)表示所述事件 ‑评论关联特征矩阵投影为向量, W1至Wn为各层全连接层的权重矩阵, B1至 Bn表示各层全连接层的偏置矩阵。 8.一种基于大 数据的公司舆情监测方法, 其特 征在于, 包括: 获取与待监控公司相关的文章和所述文章的评论数据; 对所述与待监控公司相关的文章进行实体识别和事 件抽取以得到事 件文本描述;权 利 要 求 书 2/3 页 3 CN 115409018 A 3

.PDF文档 专利 基于大数据的公司舆情监测系统及其方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于大数据的公司舆情监测系统及其方法 第 1 页 专利 基于大数据的公司舆情监测系统及其方法 第 2 页 专利 基于大数据的公司舆情监测系统及其方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。