全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211047433.3 (22)申请日 2022.08.29 (71)申请人 山东云海国创云计算装备产业创新 中心有限公司 地址 250000 山东省济南市中国 (山 东) 自 由贸易试验区济南片区浪潮路1036号 浪潮科技园S01楼3 5层 (72)发明人 陈静静 吴睿振 王凛 张永兴  孙华锦  (74)专利代理 机构 北京连和连知识产权代理有 限公司 1 1278 专利代理师 张涛 杨帆 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 一种基于BiLSTM和TextRank进行新闻文本 分类的方法 (57)摘要 本发明提出一种基于BiLSTM和TextRank进 行新闻文本分类的方法, 包括: 对文本数据集进 行预处理得到文本分词向量, 通过文本数据集的 文本分词向量训练BiLSTM分类模型并得到关于 数据集的全局语义的特征向量; 通过TextRank算 法对文本数据集的文本分词向量提取文本关键 词并基于文本关键词得到关于文本关键词的特 征向量通过TextRank算法从文本数据集的文本 分词向量提取文本关键词并基于文本关键词得 到关于文本关键词的特征向量; 基于全局语义的 特征向量和文本关键词的特征向量构建全连接 神经网络分类模 型, 并通过全 连接神经网络分类 模型对目标文本分别进行分类。 通过本发明提出 的一种基于BiLSTM和TextRank进行新闻文本分 类的方法, 可显著提高新闻文本分类的准确性。 权利要求书2页 说明书10页 附图5页 CN 115481245 A 2022.12.16 CN 115481245 A 1.一种基于Bi LSTM和TextRan k进行新闻文本分类的方法, 其特 征在于, 包括: 对文本数据集进行预处理得到文本分词向量, 通过所述文本数据集的文本分词向量训 练BiLSTM分类模型并得到关于所述数据集的全局语义的特 征向量; 通过TextRank算法从所述文本数据集的文本分词向量提取文本关键词并基于所述文 本关键词得到关于文本关键词的特 征向量; 基于所述全局语义的特征向量和所述文本关键词的特征向量构建全连接神经网络分 类模型, 并通过 所述全连接神经网络分类模型对目标文本分别进行分类。 2.根据权利要求1所述的方法, 其特 征在于, 所述对文本数据集进行 预处理包括: 通过jieba分词工具对所述文本数据集中的文本进行分词, 并过滤掉停用词得到文本 分词结果。 3.根据权利要求2所述的方法, 其特 征在于, 还 包括: 基于所述文本分词结果加载GloVe词嵌入模型将所述文本分词结果转换成文本分词向 量。 4.根据权利要求1所述的方法, 其特征在于, 所述通过所述文本数据集的文本分词向量 训练BiLSTM分类模型并得到关于所述数据集的全局语义的特 征向量包括: 将所述文本分词向量和对应分类类别输入到BiLSTM模型中进行模型训练, 并将训练好 的BiLSTM模型层的向量作为所述文本数据集的全局语义的特 征向量。 5.根据权利 要求1所述的方法, 其特征在于, 所述通过Text Rank算法从所述文本数据集 的文本分词向量提取文本关键词并基于所述文本关键词得到关于文本关键词的特征向量 包括: 通过所述文本分词向量中的贡献关系构建候选关键词图, 并基于所述候选关键词图通 过TextRan k算法进行迭代运 算直至所述 候选关键此图中各节点的权 重收敛; 将所述候选关键词图各节点根据其权重进行倒序排序, 并将倒序排序后所述关键词图 中的节点前 预定个数的节点作为 最终关键词; 基于所述最终关键词加载Glove词嵌入模型将所述最终关键词转换成文本关键词的特 征向量。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述全局语义的特征向量和所述 文本关键词的特 征向量构建全连接神经网络分类模型包括: 将所述全局语义的特 征向量和所述文本关键词的特 征向量进行拼接; 将拼接后的特征向量输入到全连接神经网络进行训练以得到所述全连接神经网络模 型。 7.根据权利要求1所述的方法, 其特征在于, 所述通过所述全连接神经网络分类模型对 目标文本分别进行分类包括: 通过TextRank算法对目标文本的文本分词向量提取文本关键词并基于所述文本关键 词构建关于目标文本关键词的特 征向量; 获取全局语义向量和将所述全局语义向量和所述目标文本关键词的特征向量进行拼 接得到目标 特征向量; 将所述目标 特征向量输入到全连接神经网络分类模型对所述目标文本进行分类。 8.一种基于Bi LSTM和TextRan k进行新闻文本分类系统, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 115481245 A 2第一模型处理模块, 所述第 一模型处理模块配置用于对文本数据集进行预处理得到文 本分词向量, 通过所述文本数据集的文本 分词向量训练BiLSTM 分类模型并得到关于所述数 据集的全局语义的特 征向量; 第二模型处理模块, 所述第二模型处理模块配置用于通过Text Rank算法从所述文本数 据集的文本分词向量提取文本关键词并基于所述文本关键词得到关于文本关键词的特征 向量; 分类模型模块, 所述分类模型模块配置用于基于所述全局语义的特征向量和所述文本 关键词的特征向量构建全连接神经网络 分类模型, 并通过所述全连接神经网络 分类模型对 目标文本分别进行分类。 9.一种计算机设备, 其特 征在于, 包括: 至少一个处 理器; 以及 存储器, 所述存储器存储有可在所述处理器上运行的计算机指令, 所述指令由所述处 理器执行时实现权利要求1 ‑7任意一项所述方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 所述计算 机程序被处 理器执行时实现权利要求1 ‑7任意一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115481245 A 3

PDF文档 专利 一种基于BiLSTM和TextRank进行新闻文本分类的方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于BiLSTM和TextRank进行新闻文本分类的方法 第 1 页 专利 一种基于BiLSTM和TextRank进行新闻文本分类的方法 第 2 页 专利 一种基于BiLSTM和TextRank进行新闻文本分类的方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。