全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211019492.X (22)申请日 2022.08.24 (71)申请人 讯飞智元信息科技有限公司 地址 230088 安徽省合肥市高新区望江西 路666号讯飞大厦8层-10层 (72)发明人 桑永龙 洪源 郑伟伟 倪修峰  范磊 张友国 刘江 吕军  胡少云  (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 尚文文 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称 一种文本主题提取方法、 装置、 设备及存储 介质 (57)摘要 本申请提出一种文本主题提取方法、 装置、 设备及存储介质, 该方法包括: 获取目标文本集 合中的各条文本的文本特征; 对 所述目标文本集 合进行基于文本特征的聚类处理, 以及对基于文 本特征的聚类结果进行基于语义特征的聚类处 理, 得到对所述目标文本集合的文本聚类结果; 对所述文本聚类结果中的各个文本簇分别进行 主题提取, 得到所述目标文本集合的文本主题。 采用上述的文本主题提取方法, 能够提高文本主 题提取的准确度。 权利要求书3页 说明书14页 附图3页 CN 115329754 A 2022.11.11 CN 115329754 A 1.一种文本主题提取 方法, 其特 征在于, 包括: 获取目标文本集 合中的各 条文本的文本特 征; 对所述目标文本集合进行基于文本特征的聚类处理, 以及对基于文本特征的聚类结果 进行基于语义特 征的聚类处 理, 得到对所述目标文本集 合的文本聚类结果; 对所述文本聚类结果中的各个文本簇分别进行主题提取, 得到所述目标文本集合的文 本主题。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述目标文本集合进行基于文本特 征的聚类处理, 以及对基于文本特征 的聚类结果进行基于语义特征 的聚类处理, 得到对所 述目标文本集 合的文本聚类结果, 包括: 通过对所述目标文本集合中的各条文本的文本特征进行聚类, 将所述目标文本集合中 的文本划分为至少一个文本 簇; 通过对所述至少一个文本簇的语义特征进行聚类, 得到对所述目标文本集合的文本聚 类结果。 3.根据权利要求2所述的方法, 其特征在于, 所述通过对所述目标文本集合中的各条文 本的文本特 征进行聚类, 将所述目标文本集 合中的文本划分为至少一个文本 簇, 包括: 根据所述目标文本集合中的各条文本的文本特征之间的相似度, 将平均相似度小于设 定的相似度阈值的文本特征聚类至同一文本特征簇, 得到至少一个文本特征簇; 其中, 所述 平均相似度表示每两个文本特 征的相似度的均值; 根据文本特征与文本的对应关系, 确定与 所述至少一个文本特征簇对应的至少一个文 本簇。 4.根据权利要求3所述的方法, 其特征在于, 根据 所述目标文本集合中的各条文本的文 本特征之 间的相似度, 将平均相似度小于 设定的相似度阈值的文本特征聚类至同一文本特 征簇, 得到 至少一个文本特 征簇, 包括: 从所述目标文本集合中的各条文本的文本特征中, 依次遍历未聚类的每一文本特征, 每遍历到一个未聚类的文本特 征时, 执行如下处 理: 依次计算该文本特 征与各个已聚类文本特 征簇中的每一文本特 征之间的相似度均值; 若该文本特征与任一已聚类文本特征簇中的每一文本特征之间的相似度均值小于设 定的相似度阈值, 则将该文本特 征聚类至该已聚类文本特 征簇; 若该文本特征与所有已聚类文本特征簇中的每一文本特征之间的相似度均值均不小 于设定的相似度阈值, 则新建文本特 征簇, 并将该文本特 征聚类至新建的文本特 征簇中。 5.根据权利要求2至4中任意一项所述的方法, 其特征在于, 所述通过对所述至少一个 文本簇的语义特 征进行聚类, 得到对所述目标文本集 合的文本聚类结果, 包括: 对所述至少一个文本 簇分别进行语义特 征提取, 得到各个文本 簇的语义特 征; 根据各个文本簇的语义特征之间的相似度, 将平均相似度小于设定的相似度阈值的语 义特征聚类至同一语义特征簇, 得到至少一个语义特征簇; 其中, 所述平均相似度 表示每两 个语义特征的相似度的均值; 根据语义特征与文本簇的对应关系, 确定与所述至少一个语义特征簇对应的至少一个 文本簇, 作为对所述目标文本集 合的文本聚类结果。 6.根据权利要求5所述的方法, 其特征在于, 对所述至少一个文本簇分别进行语义特征权 利 要 求 书 1/3 页 2 CN 115329754 A 2提取, 得到各个文本 簇的语义特 征, 包括: 对应所述至少一个文本 簇中的每 个文本簇, 分别进行如下处 理: 提取该文本簇中的所有 文本的高频词; 分别提取每个高频词的词特征, 并对各个高频词的词特征进行加权求和 处理, 得到该 文本簇的语义特 征。 7.根据权利要求1所述的方法, 其特征在于, 所述对所述文本聚类结果中的各个文本簇 分别进行主题提取, 得到所述目标文本集 合的文本主题, 包括: 对应所述文本聚类结果中的各个文本 簇, 分别进行如下处 理: 将该文本簇中的文本输入预先训练的LDA模型, 得到所述LDA模型输出的主题提取结 果, 并将该主题提取 结果确定为该文本 簇的主题。 8.根据权利要求1所述的方法, 其特征在于, 所述获取目标文本集合中的各条文本的文 本特征, 包括: 利用milvus向量数据库的搜索引擎, 从所述milvus向量数据库中检索得到预先存储的 目标文本集 合中的各 条文本的文本特 征。 9.根据权利要求1或8所述的方法, 其特征在于, 所述目标文本集合中的各条文本的文 本特征, 通过如下处 理获取得到: 对所述目标文本集合中的文本进行关键句提取, 并基于提取得到的关键句构建更新的 目标文本集 合; 对所述更新的目标文本集合中的各条文本分别进行特征提取, 得到所述目标文本集合 中的各条文本的文本特 征。 10.根据权利要求9所述的方法, 其特征在于, 对所述目标文本集合中的文本进行关键 句提取, 并基于提取 得到的关键句构建更新的目标文本集 合, 包括: 从所述目标文本集 合中, 筛选出长度大于设定的长度阈值的文本; 利用Text Rank算法, 分别 对筛选出的长度大于设定的长度阈值的文本进行关键句提取 处理, 得到每一长度大于设定的长度阈值的文本的关键句; 利用提取得到的关键句替换对应的长度大于设定的长度阈值的文本, 得到更新的目标 文本集合。 11.一种文本主题提取装置, 其特 征在于, 包括: 特征提取单元, 用于获取目标文本集 合中的各 条文本的文本特 征; 文本聚类单元, 用于对所述目标文本集合进行基于文本特征的聚类处理, 以及对基于 文本特征的聚类结果进行基于语义特征的聚类处理, 得到对所述目标文本集合的文本聚类 结果; 主题提取单元, 用于对所述文本聚类结果中的各个文本簇分别进行主题提取, 得到所 述目标文本集 合的文本主题。 12.一种文本主题提取设备, 其特 征在于, 包括: 存储器和处 理器; 其中, 所述存 储器与所述处 理器连接, 用于存 储程序和数据; 所述处理器, 用于通过运行所述存储器 中的程序, 实现如权利要求1至10中任意一项所 述的文本主题提取 方法。权 利 要 求 书 2/3 页 3 CN 115329754 A 3

PDF文档 专利 一种文本主题提取方法、装置、设备及存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本主题提取方法、装置、设备及存储介质 第 1 页 专利 一种文本主题提取方法、装置、设备及存储介质 第 2 页 专利 一种文本主题提取方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。