专利一种基于深度聚类的文本分类算法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221041383 6.9 (22)申请日 2022.04.14 (71)申请人南京邮电大学地址 210023 江苏省南京市栖霞区亚东新城区文苑路9号 (72)发明人李涛　臧砚卿　 (74)专利代理机构南京苏科专利代理有限责任公司 32102 专利代理师周湛湛 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于深度聚类的文本分类算法 (57)摘要本发明公开了一种基于深度聚类的文本分类算法，首先利用 BERT模型获取到文本词向量，紧接着利用CNN获取文本局部特征和利用BiGRU 获取上下文语境特征，再将两种特征拼接融合，加载到K‑means聚类算法中，使得特征提取更加全面，同时也提高了文本分类的准确率。权利要求书2页说明书6页附图4页 CN 114780725 A 2022.07.22 CN 114780725 A 1.一种基于深度聚类的文本分类算法，其特征在于：包括如下步骤：步骤1，获取中文新闻文本数据THUCNews，并取其中十个分类，包括体育、财经、房产、家居、教育、科技、时尚、时政、游戏以及娱乐，将新闻文本数据和类别标签数据分为训练集、验证集及测试集，并保存在文本文件中；步骤2，采用BERT预训练模型对前述步骤中获得的文本数据进行词嵌入，并使用不同的向量表示文本中的每一个字；步骤3，将步骤2中获得的文本矩阵作为卷积神经网络CNN的输入，使用CNN实现文本内容局部特征的提取，所得的局部特征向量为CE；步骤4，再将步骤2中获得的文本矩阵作为双向长短期记忆网络BiGRU的输入，使用 BiGRU实现文本上下文语境特征的提取，所得的语境特征向量为GE；步骤5，将步骤3和步骤4中分别获得的CE和GE进行向量拼接融合，得到融合后的特征；步骤6，将步骤5中获得的融合后的特征加载至K ‑means聚类模型中，并得到最终聚类结果。 2.根据权利要求1所述的基于深度聚类的文本分类算法，其特征在于：所述步骤1中，获取的中文新闻文本数据，需去除文本中的噪声，所述噪声包括无实际意义的字符及多余的空格符。 3.根据权利要求1所述的基于深度聚类的文本分类算法，其特征在于：所述步骤2中，步骤2.1，将步骤1中处理完成的文本作为BERT模型的输入，基于transformer模型的双向编码表示作为向量特征提取表示；步骤2.2，对新闻文本数据集进行分词处理，在每条文本数据的开头连接 CLS标记；步骤2.3，对分词后的文本数据进行 embedding向量化表示，得到 CLS语义编码向量。 4.根据权利要求2所述的基于深度聚类的文本分类算法，其特征在于：所述步骤2.1中， BERT模型的输入为线性序列，不同的句子之间采用分隔符分割，并在每个句子的开头和末尾增加两个标识符号；对于每一个标记，表征由其对应的标记表征、段表征和位置表征拼接而成，三种嵌入具体为：标记表征是词向量，第一个单词是CLS，该标志便于后续分类任务；段表征用来区别两种句子，因为预训练要完成以不同句子为输入的分类任务；位置表征为位置嵌入，通过学习得出不同单词在文本中的位置。 5.根据权利要求2所述的基于深度聚类的文本分类算法，其特征在于：所述步骤2.1中，在Transformer中利用多头注意力机制充分挖掘高层语义特征，输入矩阵Q、 K、 V对应注意力计算的三个重要组件，分别为quer y,key和value,dk为矩阵的维度，之后再分别使用注意力机制将结果拼接起来，最后使用投影输出；多头注意力机制的计算过程如下：在多头注意力机制中，使模型在不同表示空间中学习到更多的相关信息，其中第 i头注意力计算过程如下： 6.根据权利要求1所述的基于深度聚类的文本分类算法，其特征在于：所述步骤3中，步骤3.1，获取步骤2中BERT模型预训练后所得到的文本向量矩阵CLS；权　利　要　求　书 1/2 页 2 CN 114780725 A 2步骤3.2，将文本向量矩阵CLS输入进卷积层中进行局部特征提取，用三个不同尺寸的卷积核分别卷积两次，从而得到六个特征向量；其中，卷积核由多个元素组成，这些元素与权重系数、偏差量一一对应；步骤3.3，池化层通过对文本特征向量的局部区域进行下采样操作，将最有用的特征信息保留下来，剔除特征提取过程中多余的数据；步骤3.4，经过卷积层和池化层的特征提取后，全连接层对提取的特征进行非线性组合再输出，按照输出层的具体任务，有目的性地对深层文本特征向量矩阵进行映射，完成最终归一化地文本特征向量输出。 7.根据权利要求1所述的基于深度聚类的文本分类算法，其特征在于：所述步骤4中，步骤4.1，获取步骤2中BERT模型预训练后所得到的文本向量矩阵CLS；步骤4.2，将CLS向量输入进双向GRU网络中，分别计算出前向和后向网络t时刻的隐藏层输出和步骤4.3，对于每一个时刻，将前向和后向的隐藏层输出向量进行加权求和从而获得该时刻的特征向量，最后输出t时刻的特征向量，即可以得到语境特征向量GE。 8.根据权利要求1所述的基于深度聚类的文本分类算法，其特征在于：所述步骤5中，步骤5.1，获取CE和GE两个特征向量；步骤5.2，通过向量加权拼接得到新的向量： W ′E＝Concatenate(CE， GE)；并把新得到的 W′E经过全连接层获得最终融合后的特征向量： WE＝Linear(W′E)。 9.根据权利要求1所述的基于深度聚类的文本分类算法，其特征在于：所述步骤6中，步骤6.1，获得步骤5中融合过的特征向量；步骤6.2，首先获取数据的长度，然后在这个长度区间内随机产生k个不同的值，以此为下标提取出数据点，将它们作为聚类初始中心；步骤6.3，将数据点分配到距离(欧式距离)最短的聚类中心中，并计算平均误差；步骤6.4，计算每一簇中所有点的平均值，然后再次进行分配，并计算平均误差；步骤6.5，比较前后两次的平均误差是否相等，若不相等，则进入循环，否则终止循环。权　利　要　求　书 2/2 页 3 CN 114780725 A 3

专利 一种基于深度聚类的文本分类算法

专利一种基于深度聚类的文本分类算法