全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210917286.4 (22)申请日 2022.08.01 (71)申请人 南京信息 工程大学 地址 210000 江苏省南京市宁六路219号 (72)发明人 朱婷婷 邱玉琢 王蒙蒙 夏宇  徐广路  (74)专利代理 机构 北京众合诚成知识产权代理 有限公司 1 1246 专利代理师 陈国强 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 一种融合主题模型的图书馆平台语义检索 方法 (57)摘要 本发明涉及信息检索技术领域, 具体是一种 融合主题模 型的图书馆平台语义检索方法, 包括 对所有被检索的文档进行数据预处理, 得到合格 的被检索文档; 利用布尔模型将用户的检索词语 与合格的被检索文档进行匹配, 根据匹配结果将 文档分类并赋 予不同的权重值; 利用主题模型对 合格的被检索文档进行计算, 得到每个文档的主 题分布和主题单词的分布; 将主题单词的频数分 布转换为单词主题分布; 计算检索词的单词主题 分布与被检索文档的之间的相似性分数; 利用文 档权重与相似性分数计算检索词与各个被检索 文档的联系分数, 并根据联系分数进行排序后将 查询结果返回给用户。 本发明可以大大提高图书 馆平台语义检索效率, 有效满足用户检索知 识服 务的需求。 权利要求书3页 说明书6页 附图4页 CN 115329038 A 2022.11.11 CN 115329038 A 1.一种融合主题模型的图书馆平台语义检索方法, 其特 征在于: 包括以下步骤: S1、 对所有被检索的文档进行数据预处理, 通过分词、 清洗、 标准化之后得到合格的被 检索文档; S2、 利用布尔模型将用户的检索词语与S1中得到的合格的被检索文档进行匹配, 根据 匹配结果将所有 文档分为相关与不相关两类并赋予不同的权 重值; S3、 利用主题模型对S1处理的被检索文档进行计算, 得到每个文档的主题分布和主题 单词的分布; S4、 将S3得到的主题单词的频 数分布转换为单词主题分布; S5、 计算检索词的单词主题分布与被 检索文档的之间的相似性分数; S6、 利用S2中的文档权重与S5中的相似性分数计算检索词与各个被检索文档的联系分 数, 并根据联系分数进行排序后将查询结果返回给用户。 2.根据权利要求1所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于: 所述S1中, 数据预处理具体包括: 将文档集合D进行分词操作, 对文档dn分词后得到dn=(w1, w2,……); 接着对分词后的文档进行清洗操作, 清洗过程中去掉无用的标签、 特殊符号和停 用词; 最后对文本内容进行标准化, 将部分文本中的同一个单词具有不同的形态转化为同 一种形式。 3.根据权利要求1所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于: 所述S2中, 在基于布尔模型的匹配中, 被检索文档 D可表示为: D =(d1,d2,d3,…,dn), 用户的 检索Q可表示为: Q=(q1,q2,q3,…), 其中dn表示第n个被检索文档, q1表示第一个检索词; 布 尔模型中有三个主要逻辑算符, 分别是与(and), 或(or), 非(not), 假设用户查询包含两个 检索词q1和q2, 考虑不同逻辑算符下单词的条件, 条件有四个: (1)q1and q2; (2)q1or q2; (3) q1not q2,(4)q2not q1,为不同文档赋予权 重的公式可以表示 为: 其中, 表示文档dn的权重, 因此, 被 检索文档具有不同的权 重系数。 4.根据权利要求3所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于: 所述S3中, 主题模型的生成过程共分为四步: S31、 对于主题z, 根据Dirichlet分布Dir( β )得到该主题上的一个单词多项式分布向量 φ; S32、 根据泊松分布P得到文本的单词数目N; S33、 根据Diric hlet分布Dir( α )得到该文本的一个主题分布概 率向量θ; S34、 对于该文本M个单词中的每一个单词Wm, 先从θ 的多项式分布Multinomial( θ )随机 选择一个主题z; 再从主题z的多 项式条件概 率分布Multi nomial(φ)选择一个单词作为 Wm; 利用gibbs抽样方法对上面的生成过程进行计算, 主题模型的联合 概率分布函数为:权 利 要 求 书 1/3 页 2 CN 115329038 A 2Gibbs抽样算法通过积分避开了实际待估计的参数, 转而对每个单词的主题进行采样, 每个单词的主题确定下来后, 参数可以在统计频次后计算出来, 故参数估计问题变为计算 单词序列下主题序列的条件概 率, 其公式如下: 其中, znm表示对文档n中第m个单词对应的主题变量; ‑nm表示不包括其中的第m项; 表 示k主题中出现词v的次数; βv是词v的Dirichlet先验; 表示文档n出现主题k的次数; αk是 主题k的Dirichlet先验; Gibbs采样的基本思想是固定某一维度znm, 然后通过其他维度z‑nm 的值来抽样该维度的值, 马尔科夫链通过转移概率矩阵可以收敛到稳定的概率分布; 当马 尔科夫链在 迭代阶段消除初始 参数的影响, 到达算法收敛时, 根据当前z的分布计算文档 在 主题上的分布 θ和主题在单词上的分布φ, 公式为: 其中, φk,v表示主题k中词v的概 率, θn,k表示文档n中主题k的概 率。 5.根据权利要求4所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于: 所述S4中, 单词 ‑主题频数分布表示为: 6.根据权利要求5所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于: 所述S5中, 当用户输入检索词v时, 得到分布 和 为了计算检索词与被检索文档中的关系, 通过下列公 式计算相似性: 权 利 要 求 书 2/3 页 3 CN 115329038 A 3

PDF文档 专利 一种融合主题模型的图书馆平台语义检索方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合主题模型的图书馆平台语义检索方法 第 1 页 专利 一种融合主题模型的图书馆平台语义检索方法 第 2 页 专利 一种融合主题模型的图书馆平台语义检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。