全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221041383 6.9 (22)申请日 2022.04.14 (71)申请人 南京邮电大 学 地址 210023 江苏省南京市栖霞区亚 东新 城区文苑路9号 (72)发明人 李涛 臧砚卿  (74)专利代理 机构 南京苏科专利代理有限责任 公司 32102 专利代理师 周湛湛 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于深度聚类的文本分类算法 (57)摘要 本发明公开了一种基于深度聚类的文本分 类算法, 首先利用 BERT模型获取到文本词向量, 紧接着利用CNN获取文本局部特征和利用BiGRU 获取上下文语境特征, 再将两种特征拼接融合, 加载到K‑means聚类算法中, 使得特征提取更加 全面, 同时也 提高了文本分类的准确率。 权利要求书2页 说明书6页 附图4页 CN 114780725 A 2022.07.22 CN 114780725 A 1.一种基于深度聚类的文本分类算法, 其特 征在于: 包括如下步骤: 步骤1, 获取中文新闻文本数据THUCNews, 并取其 中十个分类, 包括体育、 财经、 房产、 家 居、 教育、 科技、 时尚、 时政、 游戏以及娱乐, 将新闻文本数据和类别标签数据分为训练集、 验 证集及测试集, 并保存在文本文件中; 步骤2, 采用BERT预训练模型对前述步骤中获得的文本数据进行词嵌入, 并使用不同的 向量表示文本中的每一个字; 步骤3, 将步骤2中获得的文本矩阵作为卷积神经网络CNN的输入, 使用CNN实现文本内 容局部特 征的提取, 所 得的局部特 征向量为CE; 步骤4, 再将步骤2中获得的文本矩阵作为双向长短期记忆网络BiGRU的输入, 使用 BiGRU实现文本上 下文语境特 征的提取, 所 得的语境特 征向量为GE; 步骤5, 将步骤3和步骤4中分别获得的CE和GE进行向量 拼接融合, 得到融合后的特 征; 步骤6, 将步骤5中获得的融合后的特征加载至K ‑means聚类模型中, 并得到最终聚类结 果。 2.根据权利要求1所述的基于深度聚类的文本分类算法, 其特征在于: 所述步骤1中, 获 取的中文新闻文本数据, 需去除文本中的噪声, 所述噪声包括无实际意义的字符及多余的 空格符。 3.根据权利要求1所述的基于深度聚类的文本分类算法, 其特 征在于: 所述 步骤2中, 步骤2.1, 将步骤1中处理完成的文本作为BERT模型的输入, 基于transformer模型的双 向编码表示作为向量特 征提取表示; 步骤2.2, 对新闻文本数据集进行分词处 理, 在每条文本数据的开头连接 CLS标记; 步骤2.3, 对分词后的文本数据进行 embedding向量化表示, 得到 CLS语义编码向量。 4.根据权利要求2所述的基于深度聚类的文本分类算法, 其特征在于: 所述步骤2.1中, BERT模型的输入为线性序列, 不同的句子之间采用分隔符分割, 并在每个句子的开头和末 尾增加两个标识符号; 对于每一个标记, 表征由其对应的标记表征、 段表征和位置表征拼接 而成, 三种嵌入具体为: 标记表征是词向量, 第一个单词是CLS, 该标志便于后续分类任务; 段表征用来区别两种句 子, 因为预训练要完成以不同句 子为输入的分类任务; 位置表征为 位置嵌入, 通过 学习得出不同单词在文本中的位置 。 5.根据权利要求2所述的基于深度聚类的文本分类算法, 其特征在于: 所述步骤2.1中, 在Transformer中利用多头注 意力机制充分挖掘高层语义特征, 输入矩阵Q、 K、 V对应注 意力 计算的三个重要组件, 分别为quer y,key和value,dk为矩阵的维度, 之后再分别使用注意力 机制将结果 拼接起来, 最后使用投影输出; 多头注意力机制的计算过程如下: 在多头注意力 机制中, 使模型在不同表示空间中学习到更多的相关信 息, 其中第 i头注 意力计算过程如下: 6.根据权利要求1所述的基于深度聚类的文本分类算法, 其特 征在于: 所述 步骤3中, 步骤3.1, 获取步骤2中BERT模型 预训练后所 得到的文本向量矩阵CLS;权 利 要 求 书 1/2 页 2 CN 114780725 A 2步骤3.2, 将文本向量矩阵CLS输入进卷积层中进行局部特征提取, 用三个不同尺寸的 卷积核分别卷积两次, 从而得到六个特征向量; 其中, 卷积核由多个元素组成, 这些元素与 权重系数、 偏差量 一一对应; 步骤3.3, 池化层通过对文本特征向量的局部区域进行下采样操作, 将最有用的特征信 息保留下来, 剔除特 征提取过程中多余的数据; 步骤3.4, 经过卷积层和池化层的特征提取后, 全连接层对提取的特征进行非线性组合 再输出, 按照输出层的具体任务, 有目的性地对深层文本特征向量矩阵进 行映射, 完成最 终 归一化地文本特 征向量输出。 7.根据权利要求1所述的基于深度聚类的文本分类算法, 其特 征在于: 所述 步骤4中, 步骤4.1, 获取步骤2中BERT模型 预训练后所 得到的文本向量矩阵CLS; 步骤4.2, 将CLS向量输入进双向GRU网络中, 分别计算出前向和后向网络t时刻的隐藏 层输出 和 步骤4.3, 对于每一个时刻, 将前向和后向的隐藏层输出向量进行加权求和从而获得该 时刻的特 征向量, 最后输出t时刻的特 征向量, 即可以得到语境特 征向量GE。 8.根据权利要求1所述的基于深度聚类的文本分类算法, 其特 征在于: 所述 步骤5中, 步骤5.1, 获取CE和GE两个特征向量; 步骤5.2, 通过向量加权拼接得到新的向量: W ′E=Concatenate(CE, GE); 并把新得到的 W′E经过全连接层获得最终融合后的特 征向量: WE=Linear(W′E)。 9.根据权利要求1所述的基于深度聚类的文本分类算法, 其特 征在于: 所述 步骤6中, 步骤6.1, 获得步骤5中 融合过的特 征向量; 步骤6.2, 首先获取数据的长度, 然后在这个长度区间内随机产生k个不同的值, 以此为 下标提取出数据点, 将它 们作为聚类初始中心; 步骤6.3, 将数据点分配到距离(欧式距离)最短的聚类中心中, 并计算平均误差; 步骤6.4, 计算每一簇中所有点的平均值, 然后再次进行分配, 并计算平均误差; 步骤6.5, 比较前后两次的平均误差是否相等, 若不相等, 则进入循环, 否则终止循环。权 利 要 求 书 2/2 页 3 CN 114780725 A 3

.PDF文档 专利 一种基于深度聚类的文本分类算法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度聚类的文本分类算法 第 1 页 专利 一种基于深度聚类的文本分类算法 第 2 页 专利 一种基于深度聚类的文本分类算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。