全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111670561.9 (22)申请日 2021.12.31 (71)申请人 中云开源数据技 术 (上海) 有限公司 地址 200131 上海市浦东 新区中国 (上海) 自由贸易试验区临港新片区环湖西一 路99号主楼1 16A26室 (72)发明人 刘江  (74)专利代理 机构 上海伯瑞杰知识产权代理有 限公司 312 27 专利代理师 俞磊 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06N 7/00(2006.01) G06F 40/279(2020.01)G06F 40/216(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于词共现图和锚词抽取的短文本主 题层次挖掘方法 (57)摘要 本发明公开了一种基于词共现图和锚词抽 取的短文本主题层次挖掘方法, 包括如下步骤: S1.主题层次挖掘框架首先基于词共现图实现主 题推断和锚词抽取; 然后, 应用关联规则挖掘频 繁锚词短语; S2.采用概率排序函数量化锚词短 语的覆盖面、 短语化与纯度等标准, 对锚词短语 排序, 达到寻找最具代表性的主题短语的目的。 本发明构建了一种词共现图与锚词抽取相结合 的方法, 利用锚词具有较好解释性的特点, 将主 题短语挖掘转换为寻找主题中的锚词, 使挖掘得 到的主题短语具有更好的解释性。 权利要求书3页 说明书8页 附图1页 CN 114490927 A 2022.05.13 CN 114490927 A 1.一种基于词共现图和锚词抽取的短文本主题层次挖掘方法, 其特征在于, 包括如下 步骤: S1.主题层次挖掘框架首先基于词共现图实现主题推断和锚词抽取; 然后, 应用关联规 则挖掘频繁锚词短语; S2.采用概率排序函数量化锚词短语的覆盖面、 短语化与纯度等标准, 对锚词短语排 序, 达到寻找最具代 表性的主题短语的目的。 2.根据权利要求1所述的基于词共现图和锚词抽取的短文本主题层次挖掘方法, 其特 征在于, 所述 步骤S1包括如下 过程: I.构建词共现图生成模型 每个主题含k个子主题, 记z∈[1, k]; 若用lij表示wi和wj构成的边数量, 则有 因此, 若要聚类一个含k个子主题的主题, 则只需用词 共现图生成模型估计 词共现图G中的 II.词共现图的模型参数推断 假设随机变量 服从泊松分布, 如公式(1)和(2)所示; 由泊松分布的期望属性可知, 所以属于主题的边的总数量的期望 为: 若用 表示图G中所有边, 则根 据泊松分布的累加 属性有: 已知模型参数, 则词共现图中所有的边的概 率如公式(3)所示; 其中, 是观察信息, W是词的集合; 因此, 需要学习的参数为属于主题z的词wi或 wj的分布, 以及主题z已知的情况 下边 的期望; 通过最大似然估计, 采用期望最大化算法对公式(3)中的参数进行估计, 更新公式如公 式(4)和(5)所示; E步: M步: 公式(4)中的 是隐藏变量, 表示词wi或wj同属主题z的边 的期望数量, 其中, 对lij权 利 要 求 书 1/3 页 2 CN 114490927 A 2的比率正比于泊松分布参数 公式(5)计算了最大似然参数的估计值δz和 其中, 表示词wi属于主题z的边的总 数量与属于主题z的边的总数量的比值; EM算法取得对数似然的局部最大值时终止; 由于每 一步迭代都需更新 δz和 因而, EM算法的每一 次迭代的时间复杂度为O(|L|k), |L|是 图的边数; III.子主题抽取 为了推断主题的子主题, 需要抽取图G的子图 然后在Gz上采用相同 的生成模型, 重复第1步和第2步过程, 直至整个主题层次构建完成; IV.主题短语挖掘 锚词有较好的主题解释性, 其推断也以词共现图为统计基础; 为提高挖掘的短语质量, 利用第2步学习到的参数 δz和 进一步抽取主题z中的锚词; 设每一主题至少包含一个 锚, s表示主题z已知锚词集合s={s1, s2,…, sn}; 用 表示已知词wi, 属于主题z的边中剩 余wj的概率; 此时, 可归约参数 中的词wj, 计算 任意一个锚词si∈s可表示主题z, 锚词抽取的关键是以线性方式组合锚词以表示非锚 词, 这个过程称为重构; 若用C表示重构系数矩阵, 矩阵中的元素Ciz表示已知词wi, 非锚词属于主题z的概率, 则 Ciz计算如公式(6)所示; 对于 中的词wi, 的计算公式如式(7)所示; 其中, 表示锚词集合中除si之外的锚词的概率; 已知 用公式(7)可得到表示 主题z的锚词s; V.基于锚词的关联规则挖掘 主题短语挖掘有2个步骤: 1)应用关联规则挖掘算法FP ‑growth挖掘, 得到频繁模式集 在此过程中使用完整性 标准对迭代过程中的频繁项集 修剪, 以加速挖掘过程; 2)使用第4 步得到的锚词, 删除 中不含锚词的主题短语, 得到 3.根据权利要求1所述的基于词共现图和锚词抽取的短文本主题层次挖掘方法, 其特 征在于, 所述词共现图G的生成过程如下: 1)生成词wi~Multi( α ); 2)生成词wj~Multi( α ); 3)以分布z~Bern oulli(γ)生成属于主题z的边(wi, wj), 形成图G中的一条边; 4)重复步骤1) ‑3), 直到无新的边 生成, 得到图G;权 利 要 求 书 2/3 页 3 CN 114490927 A 3

.PDF文档 专利 一种基于词共现图和锚词抽取的短文本主题层次挖掘方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于词共现图和锚词抽取的短文本主题层次挖掘方法 第 1 页 专利 一种基于词共现图和锚词抽取的短文本主题层次挖掘方法 第 2 页 专利 一种基于词共现图和锚词抽取的短文本主题层次挖掘方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:42:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。