专利一种文本聚类模型的训练方法、训练装置及分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211033160.7 (22)申请日 2022.08.26 (71)申请人三一集团有限公司地址 410100 湖南省长沙市经开区三一路三一工业城三一行政中心三楼 (72)发明人陈杰　蒋华晨　 (74)专利代理机构北京布瑞知识产权代理有限公司 11505 专利代理师李浩 (51)Int.Cl. G06F 16/35(2019.01) (54)发明名称一种文本聚类模型的训练方法、训练装置及分类方法 (57)摘要本申请公开了一种文本聚类模型的训练方法、训练装置及分类方法，通过根据多个初始样本，构建训练集；对训练集中的每个训练样本进行编码，得到编码集；根据两个文本向量，计算编码样本的预测损失值；根据两个文本向量和分隔符向量，计算距离损失值；综合预测损失值和距离损失值，得到总体损失值；以及当总体损失值小于预设的损失值阈值时，结束训练；即根据初始样本构建训练集，然后对训练集中的训练样本进行编码，针对单个训练样本分别计算编码后两个文本向量的预测损失值和距离损失值，以将训练样本的向量化和聚类结合同步训练，实现了聚类模型的端到端训练，以提高聚类模型的训练精度。权利要求书2页说明书10页附图10页 CN 115544248 A 2022.12.30 CN 115544248 A 1.一种文本聚类模型的训练方法，其特征在于，包括：根据多个初始样本，构建训练集；其中，所述初始样本表征所述聚类模型的原始数据，所述训练集包括多个训练样本，每个所述训练样本包括两个文本和所述两个文本之间的分隔符标志，所述分隔符标志表征所述两个文本之间的相似性；对所述训练集中的每个所述训练样本进行编码，得到编码集；其中，所述编码集包括多个编码样本，每个所述编码样本包括与所述两个文本对应的两个文本向量及与所述分隔符标志对应的分隔符向量；根据所述两个文本向量，计算所述编码样本的预测损失值；其中，所述预测损失值表征所述两个文本向量的预测值和实际值之间的差异；根据所述两个文本向量和所述分隔符向量，计算距离损失值；其中，所述距离损失值表征所述两个文本向量之间的差异；综合所述预测损失值和所述距离损失值，得到总体损失值；以及当所述总体损失值小于预设的损失值阈值时，结束训练。 2.根据权利要求1所述的文本聚类模型的训练方法，其特征在于，所述文本聚类模型的训练方法还包括：当所述总体损失值大于或等于所述损失值阈值时，调整所述聚类模型的参数和/或调整编码模型的参数以调整所述编码集。 3.根据权利要求1所述的文本聚类模型的训练方法，其特征在于，所述初始样本包括文本句子；所述根据多个初始样本，构建训练集包括：根据任意两个所述初始样本，得到所述训练集中的一个所述训练样本。 4.根据权利要求1所述的文本聚类模型的训练方法，其特征在于，所述根据所述两个文本向量，计算所述编码样本的预测损失值包括：将所述两个文本向量分别输入线性回归模型和逻辑回归模型，并计算所述两个文本向量分别对应的预测损失值。 5.根据权利要求1所述的文本聚类模型的训练方法，其特征在于，所述根据所述两个文本向量，计算所述编码样本的预测损失值包括：分别对所述两个文本向量进行掩码处理，得到对应的掩码向量；根据所述掩码向量，预测得到预测向量；以及分别计算所述预测向量与对应的文本向量之间的差异，得到所述预测损失值。 6.根据权利要求1所述的文本聚类模型的训练方法，其特征在于，所述根据所述两个文本向量和所述分隔符向量，计算距离损失值包括：将所述两个文本向量和所述分隔符向量输入线性回归模型和压缩函数模型，以得到所述距离损失值。 7.根据权利要求1所述的文本聚类模型的训练方法，其特征在于，在所述结束训练之后，所述文本聚类模型的训练方法还包括：将所述训练集输入所述文本聚类模型，得到所述训练集中所有训练样本之间的相似度；将所述相似度等于1的训练样本连接，以得到多个聚类；以及根据每个所述聚类所包含的所有训练样本，计算得到对应的聚类中心。权　利　要　求　书 1/2 页 2 CN 115544248 A 28.根据权利要求1所述的文本聚类模型的训练方法，其特征在于，所述对所述训练集中的每个所述训练样本进行编码，得到编码集包括：将每个所述训练样本中的每个字转化成多维向量，以得到所述编码样本。 9.一种文本聚类模型的分类方法，其特征在于，包括：将待分类的文本输入所述文本聚类模型，以得到所述待分类文本的聚类中心；其中，所述文本聚类模型采用上述权利要求1 ‑8中任一项所述的文本聚类模型的训练方法训练得到。 10.一种文本聚类模型的训练装置，其特征在于，包括：样本构建模块，用于根据多个初始样本，构建训练集；其中，所述初始样本表征所述聚类模型的原始数据，所述训练集包括多个训练样本，每个所述训练样本包括两个文本和所述两个文本之间的分隔符标志，所述分隔符标志表征所述两个文本之间的相似性；样本编码模块，用于对所述训练集中的每个所述训练样本进行编码，得到编码集；其中，所述编码集包括多个编码样本，每个所述编码样本包括与所述两个文本对应的两个文本向量及与所述分隔符标志对应的分隔符向量；预测损失计算模块，用于根据所述两个文本向量，计算所述编码样本的预测损失值；其中，所述预测损失值表征所述两个文本向量的预测值和实际值之间的差异；距离损失计算模块，用于根据所述两个文本向量和所述分隔符向量，计算距离损失值；其中，所述距离损失值表征所述两个文本向量之间的差异；总体损失计算模块，用于综合所述预测损失值和所述距离损失值，得到总体损失值；以及训练结束模块，用于当所述总体损失值小于预设的损失值阈值时，结束训练。权　利　要　求　书 2/2 页 3 CN 115544248 A 3

专利 一种文本聚类模型的训练方法、训练装置及分类方法

专利一种文本聚类模型的训练方法、训练装置及分类方法