全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211033160.7 (22)申请日 2022.08.26 (71)申请人 三一集团有限公司 地址 410100 湖南省长 沙市经开区三 一路 三一工业城三 一行政中心三楼 (72)发明人 陈杰 蒋华晨  (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 李浩 (51)Int.Cl. G06F 16/35(2019.01) (54)发明名称 一种文本聚类模 型的训练方法、 训练装置及 分类方法 (57)摘要 本申请公开了一种文本聚类模型的训练方 法、 训练装置及分类方法, 通过根据多个初始样 本, 构建训练集; 对训练集中的每个训练样本进 行编码, 得到编码集; 根据两个文本向量, 计算编 码样本的预测损失值; 根据两个文本向量和分隔 符向量, 计算距离损失值; 综合预测损失值和距 离损失值, 得到总体损失值; 以及当总体损失值 小于预设的损失值阈值时, 结束训练; 即根据初 始样本构建训练集, 然后对训练集中的训练样本 进行编码, 针对 单个训练样本分别计算编码后两 个文本向量的预测损失值和距离损失值, 以将训 练样本的向量化和聚类结合同步训练, 实现了聚 类模型的端到端训练, 以提高聚类模 型的训练精 度。 权利要求书2页 说明书10页 附图10页 CN 115544248 A 2022.12.30 CN 115544248 A 1.一种文本聚类模型的训练方法, 其特 征在于, 包括: 根据多个初始样本, 构建训练集; 其中, 所述初始样本表征所述聚类模型的原始数据, 所述训练集包括多个训练样本, 每个所述训练样本包括两个文本和所述两个文本之 间的分 隔符标志, 所述分隔符标志 表征所述两个文本之间的相似性; 对所述训练集中的每个所述训练样本进行编码, 得到编码集; 其中, 所述编码集包括多 个编码样本, 每个所述编 码样本包括与所述两个文本对应的两个文本向量及与所述分隔符 标志对应的分隔符向量; 根据所述两个文本向量, 计算所述编码样本的预测损失值; 其中, 所述预测损失值表征 所述两个文本向量的预测值和实际值之间的差异; 根据所述两个文本向量和所述分隔符 向量, 计算距离损失值; 其中, 所述距离损失值表 征所述两个文本向量之间的差异; 综合所述预测损失值和所述距离损失值, 得到总体损失值; 以及 当所述总体损失值小于预设的损失值阈值时, 结束训练。 2.根据权利要求1所述的文本聚类模型的训练方法, 其特征在于, 所述文本聚类模型的 训练方法还 包括: 当所述总体损 失值大于或等于所述损 失值阈值时, 调整所述聚类模型的参数和/或调 整编码模型的参数以调整所述编码集。 3.根据权利要求1所述的文本聚类模型的训练方法, 其特征在于, 所述初始样本包括文 本句子; 所述 根据多个初始样本, 构建训练集包括: 根据任意两个所述初始样本, 得到所述训练集中的一个所述训练样本 。 4.根据权利要求1所述的文本聚类模型的训练方法, 其特征在于, 所述根据所述两个文 本向量, 计算所述编码 样本的预测损失值包括: 将所述两个文本向量分别输入线性 回归模型和逻辑 回归模型, 并计算所述两个文本向 量分别对应的预测损失值。 5.根据权利要求1所述的文本聚类模型的训练方法, 其特征在于, 所述根据所述两个文 本向量, 计算所述编码 样本的预测损失值包括: 分别对所述两个文本向量进行掩码处 理, 得到对应的掩码向量; 根据所述掩码向量, 预测得到预测向量; 以及 分别计算所述预测向量与对应的文本向量之间的差异, 得到所述预测损失值。 6.根据权利要求1所述的文本聚类模型的训练方法, 其特征在于, 所述根据所述两个文 本向量和所述分隔符向量, 计算距离损失值包括: 将所述两个文本向量和所述分隔符向量输入线性 回归模型和压缩函数模型, 以得到所 述距离损失值。 7.根据权利要求1所述的文本聚类模型的训练方法, 其特征在于, 在所述结束训练之 后, 所述文本聚类模型的训练方法还 包括: 将所述训练集输入所述文本聚类模型, 得到所述训练集中所有训练样本之间的相似 度; 将所述相似度等于1的训练样本连接, 以得到多个聚类; 以及 根据每个所述聚类所包 含的所有训练样本, 计算得到对应的聚类中心。权 利 要 求 书 1/2 页 2 CN 115544248 A 28.根据权利要求1所述的文本聚类模型的训练方法, 其特征在于, 所述对所述训练集中 的每个所述训练样本进行编码, 得到编码集包括: 将每个所述训练样本中的每 个字转化成多维向量, 以得到所述编码 样本。 9.一种文本聚类模型的分类方法, 其特 征在于, 包括: 将待分类的文本输入所述文本聚类模型, 以得到所述待分类文本的聚类 中心; 其中, 所 述文本聚类模型采用上述权利要求1 ‑8中任一项所述的文本聚类模型的训练方法训练得 到。 10.一种文本聚类模型的训练装置, 其特 征在于, 包括: 样本构建模块, 用于根据多个初始样本, 构建训练集; 其中, 所述初始样本表征所述聚 类模型的原始数据, 所述训练集包括多个训练样本, 每个所述训练样本包括两个文本和所 述两个文本之间的分隔符标志, 所述分隔符标志 表征所述两个文本之间的相似性; 样本编码模块, 用于对所述训练集中的每个所述训练样本进行编码, 得到编码集; 其 中, 所述编码集包括多个编码样本, 每个所述编码样本包括与所述两个文本对应的两个文 本向量及与所述分隔符标志对应的分隔符向量; 预测损失计算模块, 用于根据 所述两个文本向量, 计算所述编码样本的预测损失值; 其 中, 所述预测损失值表征 所述两个文本向量的预测值和实际值之间的差异; 距离损失计算模块, 用于根据 所述两个文本向量和所述分隔符向量, 计算距离损失值; 其中, 所述距离损失值表征 所述两个文本向量之间的差异; 总体损失计算模块, 用于综合所述预测损失值和所述距离损失值, 得到总体损失值; 以 及 训练结束模块, 用于当所述总体损失值小于预设的损失值阈值时, 结束训练。权 利 要 求 书 2/2 页 3 CN 115544248 A 3

.PDF文档 专利 一种文本聚类模型的训练方法、训练装置及分类方法

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本聚类模型的训练方法、训练装置及分类方法 第 1 页 专利 一种文本聚类模型的训练方法、训练装置及分类方法 第 2 页 专利 一种文本聚类模型的训练方法、训练装置及分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。