全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210169563.8 (22)申请日 2022.02.23 (71)申请人 苏州大学 地址 215000 江苏省苏州市吴中区石湖西 路188号 (72)发明人 张莉 金玲彬 苏畅之 赵雷  王邦军  (74)专利代理 机构 苏州市中南伟业知识产权代 理事务所(普通 合伙) 32257 专利代理师 李柏柏 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/284(2020.01)G06N 20/00(2019.01) (54)发明名称 基于判别方差准则的影评情感分析预处理 方法及系统 (57)摘要 本发明涉及一种基于判别方差准则的影评 情感分析预处理方法, 包括对获取的原始影评数 据进行分词、 清洗和标准化的预处理, 并整理得 到影评语料库, 其中影评语料库包括影评和特征 项; 基于影评语料库得到影评频次矩阵和词频矩 阵; 基于影评频次矩阵计算判别方差准则, 利用 判别方差准则计算影评语料库中每个特征项的 判别相关性得分, 按照得分降序排列得到特征项 重要程度序列; 将特征项重要 程度序列输入至训 练好的分析模型中, 输出影评情感分析结果, 并 对影评情感分析结果进行评估。 本发 明判别方差 准则有效地结合了方差和监督信息, 利用判别方 差准则对影评文本进行预处理, 使得具有较高总 体散度和较低类散度的特征项更具判别性, 提高 影评情感分析的性能。 权利要求书3页 说明书9页 附图1页 CN 114610877 A 2022.06.10 CN 114610877 A 1.一种基于判别方差准则的影评情感分析 预处理方法, 其特 征在于, 包括以下步骤: 对获取的原始影评数据进行分词、 清洗和标准化的预处理, 并整理得到影评语料库, 其 中所述影评语料库包括影评和特 征项; 基于所述影评语料库得到影评频次矩阵和词频矩阵; 基于影评频次矩阵计算判别方差准则, 利用所述判别方差准则计算所述影评语料库中 每个特征项的判别相关性得分, 按照得分降序排列得到特 征项重要程度 序列; 将所述特征项重要程度序列输入至训练好的分析模型中, 输出影评情感分析结果, 并 对所述影评情感分析 结果进行评估。 2.根据权利要求1所述的基于判别方差准则的影评情感分析预处理方法, 其特征在于, 基于影评频次矩阵计算判别方差准则的方法包括: 所述判别方差准则的计算公式如下: 其中, p(ck)是类别ck的先验概率, var(tj)是特征项tj在所有类别上的方差, 即总体散 度, var(tj,ck)是特征项tj针对类别ck的类方差, 即类散度。 3.根据权利要求2所述的基于判别方差准则的影评情感分析预处理方法, 其特征在于, 所述总体散度和类散度的定义如下: 其中, 是第j个特征项的特征均值, 是第j个特征项在第i条影评中的影 评频次, Dk是属于类别ck的影评集合, 是第j个特征项在类别ck中的特征均 值。 4.根据权利要求1所述的基于判别方差准则的影评情感分析预处理方法, 其特征在于, 所述分析模型的训练方法包括: 获取原始影评数据, 基于所述原始影评数据整理得到训练数据集, 对所述训练数据集 中的影评数据进行分词、 清洗和标准 化的预处 理, 其中所述训练数据集包括影评和特 征项; 基于所述训练数据集得到影评频次矩阵和词频矩阵; 基于影评频次矩阵计算判别方差准则, 利用所述判别方差准则计算所述训练数据集中 每个特征项的判别相关性得分, 按照得分降序排列得到特 征项重要程度 序列; 将所述特 征项重要程度 序列输入至分类模型中进行训练学习, 得到分析模型。 5.一种基于判别方差准则的影评情感分析 预处理系统, 其特 征在于, 包括: 影评预处理模块, 所述影评预处理模块用于对获取的原始影评数据进行分词、 清洗和 标准化的预处 理, 并整理得到影评语料库, 其中所述影评语料库包括影评和特 征项; 影评表示模块, 所述影评表示模块用于基于所述影评语料库 得到影评频次矩阵和词频权 利 要 求 书 1/3 页 2 CN 114610877 A 2矩阵; 特征项排序模块, 所述特征项排序模块用于基于影评频次矩阵计算判别方差准则, 利 用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分, 按照得分降序 排列得到特 征项重要程度 序列; 影评情感分析模块, 所述影评情 感分析模块用于将所述特征项重要程度序列输入至分 析模型中, 输出影评情感分析 结果, 并对所述影评情感分析 结果进行评估。 6.根据权利要求5所述的基于判别方差准则的影评情感分析预处理系统, 其特征在于, 所述特征项排序模块包括: 判别方差准则计算子模块, 所述判别方差准则 计算子模块用于根据如下的计算公式计 算判别方差准则: 其中, p(ck)是类别ck的先验概率, var(tj)是特征项tj在所有类别上的方差, 即总体散 度, var(tj,ck)是特征项tj针对类别ck的类方差, 即类散度, 是第j个特征项的 特征均值, 是第j个特征项在第i条影评中的影评频次, Dk是属于类别ck的影评集合, 是第j个特 征项在类别ck中的特征均值。 7.根据权利要求5所述的基于判别方差准则的影评情感分析预处理系统, 其特征在于, 所述影评情感分析模块包括模型训练学习子模块, 所述模型训练学习子模块用于实现如下 步骤: 获取原始影评数据, 基于所述原始影评数据整理得到训练数据集, 对所述训练数据集 中的影评数据进行分词、 清洗和标准 化的预处 理, 其中所述训练数据集包括影评和特 征项; 基于所述训练数据集得到影评频次矩阵和词频矩阵; 基于影评频次矩阵计算判别方差准则, 利用所述判别方差准则计算所述训练数据集中 每个特征项的判别相关性得分, 按照得分降序排列得到特 征项重要程度 序列; 将所述特 征项重要程度 序列输入至分类模型中进行训练学习, 得到分析模型。 8.根据权利要求5或7所述的基于判别方差准则的影评情感分析预处理系统, 其特征在 于, 所述影评情感分析模块包括: 影评情感测试子模块, 所述影评情感测试子模块用于利用训练学习好的分析模型进行 影评情感测试。 9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现权利要求1至4任一项所述方法的 步骤。权 利 要 求 书 2/3 页 3 CN 114610877 A 3

.PDF文档 专利 基于判别方差准则的影评情感分析预处理方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于判别方差准则的影评情感分析预处理方法及系统 第 1 页 专利 基于判别方差准则的影评情感分析预处理方法及系统 第 2 页 专利 基于判别方差准则的影评情感分析预处理方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。