全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211026713.6 (22)申请日 2022.08.25 (71)申请人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 樊艳  (74)专利代理 机构 北京清源汇知识产权代理事 务所(特殊普通 合伙) 11644 专利代理师 冯德魁 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06Q 30/02(2012.01) (54)发明名称 一种用于通话数据分析的方法、 装置电子设 备及存储设备 (57)摘要 本申请公开了一种用于通话数据分析的方 法, 包括: 获取经自然语言处理的通话数据, 所述 通话数据包含不同通话参与者的数据集; 将所述 不同通话参与者的数据集作为训练数据, 分别训 练LDA主题模型, 获得针对不同通话参与者的LDA 模型, 以及通话数据中的通话主题; 利用所述训 练得到LDA模型对所述通话数据进行分析, 并根 据所述通话主题对所述通话数据进行连续打标, 获得带有通话主题标识的通话数据集。 所述方法 可以方便、 准确获得通 话数据的主题。 权利要求书2页 说明书11页 附图4页 CN 115455180 A 2022.12.09 CN 115455180 A 1.一种用于通 话数据分析的方法, 其特 征在于, 包括: 获取经自然语言处 理的通话数据, 所述 通话数据包 含不同通 话参与者的数据集; 将所述不同通话参与者的数据集作为训练数据, 分别训练LDA(隐性狄利克雷分布)主 题模型, 获得针对不同通 话参与者的LDA模型, 以及通 话数据中的通 话主题; 利用所述训练得到LDA模型对所述通话数据进行分析, 并根据所述通话主题对所述通 话数据进行 连续打标, 获得 带有通话主题标识的通 话数据集。 2.根据权利要求1所述的用于通话数据分析的方法, 其特征在于, 所述不同通话参与者 的数据集 为句子级别的通 话数据集; 获取经自然语言处 理的通话数据, 所述 通话数据包 含不同通 话参与者的数据集, 包括: 将所述自然语言处 理的通话数据按照句子维度进行分割, 获得句子级别的通 话数据; 将所述句子级别的通 话数据按照不同通 话参与者进行区分; 得到不同通 话参与者的句子级别的通 话数据的数据集。 3.根据权利要求2所述的用于通话数据分析的方法, 其特征在于, 所述将所述不同通话 参与者的数据集作为训练数据, 分别训练LDA主题模型, 包括: 对所述不同通话参与者的通话数据的数据集进行分词, 得到不同通话参与者的词语级 别语料库; 对所述不同通话参与者的词语级别语料库中出现的每个词进行词典构建, 并将所述不 同通话参与者的句子级别的通 话数据通过词袋模型进行表示; 基于所述词袋模型, 确定每 个词在不同句子中的重要性和在当前句子中的频率; 通过gensim开源接口分别训练LDA主题模型。 4.根据权利要求3所述的用于通话数据分析的方法, 其特征在于, 所述获得针对不同通 话参与者的LDA模型, 以及通 话数据中的通 话主题, 包括: 获取不同通 话参与者的LDA模型中发现的原生 通话主题; 对所述原生 通话主题进行有效性过 滤, 得到所述 通话数据中的通 话主题。 5.根据权利要求4所述的用于通话数据分析的方法, 其特征在于, 所述原生通话主题由 从所述LDA主题模型中的特定数量的主题关键词的概 率分布表示。 6.根据权利要求4或5所述的用于通话数据分析的方法, 其特征在于, 对所述原生主题 进行有效性过 滤, 得到所述 通话数据中的通 话主题, 包括: 根据特定数量的主题关键词的概率分布, 获得每个所述原生主题下排名由高到低特定 数量的句子; 对所述原生主题下排名由高到低特定数量的句子进行 标注主题; 将能够完整表达相对集中语义关系的所述原生对话主题, 标注合理的对话主题名称, 从而得到通 话数据的有效主题。 7.根据权利要求1所述的用于通话数据分析的方法, 其特征在于, 所述利用所述训练得 到LDA模型对 所述通话数据进 行分析, 并根据所述通话主题对所述通话数据进 行连续打标, 获得带有通话主题标识的通 话数据集, 包括: 利用所述训练得到LDA模型对所述通话数据进行分析, 获得每个句子最可能的主题和 该主题下的分数; 根据所述每个句子最可能的主题和该主题下的分数, 获得所述通话数据每句句子的主权 利 要 求 书 1/2 页 2 CN 115455180 A 2题; 根据所述通话数据每个句子的主题对所述句子进行打标, 获得带有通话主题标识的通 话数据集。 8.根据权利要求7所述的用于通话数据分析的方法, 其特征在于, 根据 所述每句句子最 可能的主题和该主题下的分数, 获得 所述通话数据每句 句子的主题, 包括: 当句子最可能的主题和该主题下的分数低于阈值 时, 直接沿用上文最近的主题作为所 述句子打标的主题。 9.一种用于通 话数据分析的装置, 其特 征在于, 包括: 通话数据获得单元, 用于获取经自然语言处理的通话数据, 所述通话数据包含不同通 话参与者的数据集; LDA模型通话主题获得单元, 用于将所述不同通话参与者的数据集作为训练数据, 分别 训练LDA主题模型, 获得针对不同通 话参与者的LDA模型, 以及通 话数据中的通 话主题; 通话主题分析单元, 用于利用所述训练得到LDA模型对所述通话数据进行分析, 并根据 所述通话主题对所述 通话数据进行 连续打标, 获得 带有通话主题标识的通 话数据集。 10.一种电子设备, 其特 征在于, 包括: 处理器; 存储器, 用于存储用于通话数据分析方法的程序, 该设备通电并通过所述处理器运行 所述用于通 话数据分析 方法的程序后, 执 行下述步骤: 获取经自然语言处 理的通话数据, 所述 通话数据包 含不同通 话参与者的数据集; 将所述不同通话参与者的数据集作为训练数据, 分别训练LDA主题模型, 获得针对不同 通话参与者的LDA模型, 以及通 话数据中的通 话主题; 利用所述训练得到LDA模型对所述通话数据进行分析, 并根据所述通话主题对所述通 话数据进行 连续打标, 获得 带有通话主题标识的通 话数据集。权 利 要 求 书 2/2 页 3 CN 115455180 A 3

.PDF文档 专利 一种用于通话数据分析的方法、装置电子设备及存储设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于通话数据分析的方法、装置电子设备及存储设备 第 1 页 专利 一种用于通话数据分析的方法、装置电子设备及存储设备 第 2 页 专利 一种用于通话数据分析的方法、装置电子设备及存储设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。