全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211051845.4 (22)申请日 2022.08.31 (71)申请人 北京云创网讯信息科技有限公司 地址 100027 北京市东城区东中街58号美 惠大厦C座702室 (72)发明人 韩旭辉 程兵 郭东  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 肖明洲 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01)G06K 9/62(2022.01) (54)发明名称 一种政策公告网络评论情感分析方法、 系统 及设备 (57)摘要 本发明公开了一种政策公告网络评论情感 分析方法、 系统及设备, 首先针对待分析政策公 告, 获取网络平台中与待分析政 策公告相关联的 文本数据; 然后对采集到的文本数据进行预处 理, 去除噪声数据; 基于融合了语义依存算法、 图 搜寻算法、 N ‑Gram语言模型的分词方法对预处理 后的评论文本进行分词, 得到待分析评论文本; 接着采用网络平台用户分类模型识别与政策公 告有交集的网络平台用户; 基于已构建的细粒度 情感词典及情感分析规则对待分析评论文本进 行情感分析。 本发明能够为相关机构或部门提供 政务实践的启示和建议方向, 帮助政 策公告制定 或发布主体更好 地倾听民意、 与群众互动。 权利要求书3页 说明书10页 附图3页 CN 115238709 A 2022.10.25 CN 115238709 A 1.一种政策公告网络 评论情感分析 方法, 其特 征在于, 包括以下步骤: 步骤1: 针对待分析政策公告, 获取网络平台 中与待分析政策公告相关联的文本数据; 步骤2: 对 采集到的文本数据进行 预处理, 去除无关的噪声数据; 步骤3: 对步骤2中预处 理后的评论文本进行分词, 得到待分析评论文本; 步骤4: 采用网络平台用户分类模型识别与政策公告 有交集的网络平台用户; 所述网络平台用户分类模型识别模型由句子变换模型SBERT、 词变换模型word2vec和 零样本学习分类 器组成; 步骤5: 基于已构建的细粒度情感词典及情感分析规则对待分析评论文本进行情感分 析; 基于半自动化构建方案构建出细粒度情感词典, 以此匹配待分析评论文本, 并采用情 感分析规则计算网民情感分值。 2.根据权利要求1所述的政策公告网络评论情感分析方法, 其特征在于: 步骤1中所述 待分析政策公告根据政策公告的网络评论量来确定, 或根据分析师的分析需求进 行人为主 观确定。 3.根据权利要求1所述的政策公告网络评论情感分析方法, 其特征在于: 步骤2中所述 去除无关联 数据, 是采用正则表达式匹配并去除无关联的噪声数据。 4.根据权利要求1所述的政策公告网络评论情感分析方法, 其特征在于: 步骤3中所述 分词依据本方案分词方法进行分词, 具体实现包括以下子步骤: 步骤3.1: 使用SDP/DEP语义依存算法, 将文本数据映射到一个图结构里, 针对待分析文 本数据生成语义依存图; 步骤3.2: 使用深度优先SFS算法和广度优先BFS算法两种图搜寻算法在语义依存图上 搜寻合适的语言单位 LU, 每个语言单元LU即为 一个分词结果; 步骤3.3: 采用N ‑Gram语言模型并按照联合概率最大化的原则选择语言单元LU={W1, W2,…Wn}; P(W1:n)为联合概率, 具体表示 为: 其中, Wk是语言单元组 中的词单元, k是词单元的排列次序, n是k的上界, k=1,2 …,n; 每 个句子与其语言单元 组的关系满足马尔科夫关系, 可按照联合概率最大化的原则选择语言 单元LU={W1,W2,…Wn}; 每个词单元Wk不一定是相互连接在一 起的。 5.根据权利要求1所述的政策公告网络评论情感分析方法, 其特征在于: 步骤4中所述 采用网络平台用户分类模型识别与政策公告有交集的网络平台用户, 具体实现包括以下子 步骤: 步骤4.1基于所采集的大量网络平台用户主页信息, 按照标签体系对网络平台用户类 别进行标注并建立人工数据集; 基于所采集的若干网络平台用户主页信 息, 按照预设置的标签体系对 网络平台用户类 别进行标注并建立人工数据集, 基于人工数据集和自然语言文本构建网络平台用户分类模 型, 并用于识别待分析 数据集中的网络平台用户类别; 所述网络平台用户主页信 息包括用户名称、 平台认定属性、 用户自定义说明, 平台认定 属性包括认证情况、 会员等级、 粉丝数和行业类别, 用户自定义说明包括用户说明、 简介内权 利 要 求 书 1/3 页 2 CN 115238709 A 2容、 用户标签; 所述网络平台用户类别包括身份类别、 专业领域类别, 均为预定义的一级分 类类别, 并基于此进一 步预定义 二级分类 类别; 步骤4.2基于人工数据集和自然语言文本构建网络平台用户分类模型, 并用于识别待 分析数据集中的网络平台用户类别; 所述网络平台用户分类模型由句子变换模型、 词变换模型word2vec、 零样本学习分类 器组成; 针对用户名称、 用户说明、 简介内容、 用户标签的文本特征, 采用句子变换模型SBERT将 其变为768维特 征向量; 针对网络平台用户的一级分类类别和二级分类预定义数据, 采用词变换模型word2vec 将其变为 不同维度的特 征向量; 将句子变换模型SBERT和词变换模型word2vec 的输出作为语言量化表达, 并通过零样 本学习分类 器识别网络平台用户类型W*; W*=arg minw{||XTW‑Y||2+λ||W‑I||2}; 其中, X是用户名称、 用户说明、 简介内容、 用户标签文本的SBERT特征向量在词向量空 间的投影; Y为网络平台用户一级和二级 预定义类别标签的word2v ec词向量; W是矩阵参数, λ是固定常数, I是 单位矩阵。 6.根据权利要求1所述的政策公告网络评论情感分析方法, 其特征在于: 步骤5 中, 基于 已构建的细粒度情感词典及情感分析规则对待分析评论文本进行情感分析, 包括以下子步 骤: 步骤5.1: 基于半自动化词典构建方案构建细粒度情感词典; 步骤5.2: 以细粒度情 感词典匹配待分析评论文本, 并采用情 感分析规则计算网民情 感 分值; 所述情感分析规则包括情感分值计算 规则、 点赞加权分数计算 规则; 步骤5.3: 基于网络平台用户类别、 细粒度情感、 其他维度进行交叉分析并将分析结果 可视化: 交叉分析包括政策公告网民评论中 〈网络平台用户类别, 细粒度情感〉 二元组内的 交叉分析, 〈网络平台用户类别, 细粒度情感〉 二元组与其他 维度之间的交叉分析; 所属其他 维度包括时间、 IP属地。 7.根据权利要求6所述的政策公告网络评论情 感分析方法, 其特征在于: 步骤5.1中, 首 先依据社会心理学设计细粒度情感分类体系, 其所含50种情感类别 如下: 敬佩、 快乐、 乐观、 满意、 期望、 喜爱、 相信、 赞扬、 祝愿、 感激、 感动、 悲伤、 贬责、 挫折、 低落、 妒忌、 烦恼、 愤怒、 孤 独、 焦虑、 紧张、 恐惧、 轻蔑、 失望、 无奈、 颓废、 委屈、 心慌、 害羞、 愧疚、 厌恶、 疑惑、 抑郁、 怨 恨、 自卑、 嘲讽、 麻木、 质疑、 尴尬、 放松、 惊奇、 警觉、 激动、 骄傲、 平静、 思念、 同情、 无聊、 着 急、 冷漠; 其次, 基于积累的政务领域分词数据、 外部词典或词库, 通过情感分类、 基于外部词典 或词库进行扩展、 人工 筛选的方式构建细粒度情感种子词库; 最后以外部媒体及评论语料库作为扩展词来源语料库, 在种子词库的基础上利用LU语 言单元组对词库进行扩展, 经 过人工校正构建出半自动化的细粒度情感词典。 8.根据权利要求6所述的政策公告网络评论情 感分析方法, 其特征在于: 步骤5.2中, 首 先以细粒度情感词典匹配待分析评论文本, 依据情感分析规则计算出评论的点赞加权分 数、 情感分值; 其次, 按各类别网络平台用户汇总情感分值并进行对比, 或结合其他维度进权 利 要 求 书 2/3 页 3 CN 115238709 A 3

PDF文档 专利 一种政策公告网络评论情感分析方法、系统及设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种政策公告网络评论情感分析方法、系统及设备 第 1 页 专利 一种政策公告网络评论情感分析方法、系统及设备 第 2 页 专利 一种政策公告网络评论情感分析方法、系统及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。